AI ຊຸດຄຳຖາມໃນການສຳພາດທີ 11: ຈະປັບປຸງ RAG ແນວໃດ?

ການປັບປຸງ RAG ບໍ່ແມ່ນການປັບປ່ຽນພຽງຂັ້ນຕອນດຽວ ແຕ່ເປັນຂະບວນການ ປັບປຸງສາຍໂສ້ທັງໝົດ. ຂ້າງລຸ່ມນີ້ຂ້າພະເຈົ້າຈະໃຫ້ຍຸດທະສາດການປັບປຸງຢ່າງເປັນລະບົບຈາກ ດ້ານການຈັດດັດສະນີຂໍ້ມູນ, ດ້ານການຄົ້ນຫາ, ດ້ານການສ້າງ, ແລະ ດ້ານການປະເມີນ ສີ່ມິຕິ, ພ້ອມທັງແນບປະສົບການປະຕິບັດຕົວຈິງທີ່ສາມາດກ່າວເຖິງໃນການສຳພາດ.

ຫນຶ່ງ: ການປັບປຸງດ້ານການຈັດດັດສະນີຂໍ້ມູນ (ປັບປຸງຄຸນນະພາບ "ຄັງຄວາມຮູ້")

ນີ້ແມ່ນຈຸດທີ່ຖືກລະເລີຍງ່າຍທີ່ສຸດ ແຕ່ກໍ່ເຫັນຜົນໄດ້ໄວທີ່ສຸດ.

ຈຸດປັບປຸງ	ປະກົດການທີ່ເກີດຂຶ້ນ	ວິທີການປະຕິບັດ	ຕົວຊີ້ວັດຜົນໄດ້ຮັບ
ການວິເຄາະເອກະສານ	ຕາຕະລາງ, ແຜນພາບໃນ PDF ຖືກລະເລີຍ ຫຼື ຕົວໜັງສືເສຍລຳດັບ.	ໃຊ້ຫ້ອງສະໝຸດການວິເຄາະທີ່ດີກວ່າ (ເຊັ່ນ `unstructured`, `pypdf` ໃນໂໝດຮັກສາຮູບແບບ); ສຳລັບຕາຕະລາງ, ໃຊ້ `pandas` ສະກັດແລະປ່ຽນເປັນ Markdown.	ອັດຕາການດຶງຄືນ +5~15%
ຂະໜາດຂອງການແບ່ງຂໍ້ຄວາມ	chunk ນ້ອຍເກີນໄປເຮັດໃຫ້ບໍ່ມີບໍລິບົດ (ເຊັ່ນ "ລາວ" ໃນ "ລາຍຮັບປີນີ້ຂອງລາວ" ຫາຍ); chunk ໃຫຍ່ເກີນໄປເຮັດໃຫ້ມີສິ່ງລົບກວນຫຼາຍ.	ທົດລອງ chunk size ຕ່າງໆ (256/512/768 token), overlap ຕັ້ງ 10~20%; ສຳລັບເອກະສານຍາວ, ຕັດຕາມຂອບເຂດຄວາມໝາຍ (ວັກ/ຫົວຂໍ້) ແທນຄວາມຍາວຄົງທີ່.	ອັດຕາການຖືກ / ຄວາມຊື່ສັດ
ການເພີ່ມຂໍ້ມູນກຳກັບ	ດຶງວັກທີ່ກ່ຽວຂ້ອງມາໄດ້ ແຕ່ບໍ່ສາມາດຕິດຕາມແຫຼ່ງທີ່ມາ ຫຼື ເວລາ.	ເພີ່ມ metadata ໃສ່ທຸກ chunk: `source` (ຊື່ໄຟລ໌/URL), `timestamp`, `page_num`, `doc_type`. ໃຊ້ຕົວກັ່ນຕອງເມື່ອຄົ້ນຫາ (ເຊັ່ນ `doc_type == 'legal'`).	ຄວາມຖືກຕ້ອງຂອງການກັ່ນຕອງ
ການເລືອກແບບຈຳລອງການຝັງ	embedding ທົ່ວໄປໃຊ້ງານບໍ່ໄດ້ດີໃນສາຂາສະເພາະ (ການແພດ, ລະຫັດ, ກົດໝາຍ).	ໃຊ້ແບບຈຳລອງທີ່ປັບສະເພາະສາຂາ (BGE‑large‑zh, GTE‑Qwen2‑7B‑instruct); ຫຼື ປັບແບບຈຳລອງ embedding ຂອງຕົນເອງ (ໃຊ້ triplet loss).	MRR@10 ໃນການຄົ້ນຫາ +10~20%

ສອງ: ການປັບປຸງດ້ານການຄົ້ນຫາ (ເຮັດໃຫ້ "ການພິກປື້ມ" ຖືກຕ້ອງຂຶ້ນ)

ການຄົ້ນຫາເປັນຕົວກຳນົດຄຸນນະພາບຂອງ "ເອກະສານອ້າງອີງ" ທີ່ໃຫ້ LLM.

ຈຸດປັບປຸງ	ປະກົດການທີ່ເກີດຂຶ້ນ	ວິທີການປະຕິບັດ	ຜົນໄດ້ຮັບ
ການຄົ້ນຫາແບບປະສົມ	ການຄົ້ນຫາແບບ vector ບໍ່ສາມາດຈັບຄຳສັບເຕັກນິກໄດ້ (ເຊັ່ນ ລຸ້ນຜະລິດຕະພັນ `ABC-123`), ການຄົ້ນຫາແບບ keyword ບໍ່ເຂົ້າໃຈຄຳພ້ອມຄວາມໝາຍ.	ໃຊ້ທັງ vector search (semantic) ແລະ BM25 (keyword), ຜະສົມໂດຍການຖ່ວງນ້ຳໜັກ (ເຊັ່ນ 0.7vector + 0.3BM25) ຫຼື fusion ຜ່ານ rerank.	ອັດຕາການດຶງຄືນ +10~25%
ການຈັດລຳດັບຄືນ (Rerank)	ຜົນລັບຕຳແໜ່ງທຳອິດຈາກ vector search ອາດບໍ່ກ່ຽວຂ້ອງທີ່ສຸດ, ຕຳແໜ່ງທີ 10 ອາດດີກວ່າ.	ໃຊ້ cross‑encoder model (ເຊັ່ນ `BGE‑reranker-v2`, Cohere Rerank) ປະເມີນຄະແນນກັບຊຸດຕົວເລືອກ (ເຊັ່ນ 20 ອັນທຳອິດ) ແລ້ວເອົາ top‑K.	ອັດຕາການຖືກເພີ່ມຂຶ້ນຢ່າງຫຼວງຫຼາຍ (ໂດຍສະເພາະ top‑1)
ການຂຽນຄຳຖາມຄືນ	ຄຳຖາມຂອງຜູ້ໃຊ້ບໍ່ຊັດເຈນ ຫຼື ມີການອ້າງອີງທີ່ບໍ່ຊັດເຈນໃນການສົນທະນາຫຼາຍຮອບ ("ລາຄາຂອງມັນເທົ່າໃດ?").	ໃຊ້ LLM ປ່ຽນຄຳຖາມຕົ້ນສະບັບໃຫ້ເໝາະສົມກັບການຄົ້ນຫາຫຼາຍຂຶ້ນ (ເຊັ່ນ "ລາຄາຂອງ iPhone 15 ເທົ່າໃດ?"); ຫຼື ໃຊ້ປະຫວັດການສົນທະນາມາເຕີມເຕັມ.	ອັດຕາການດຶງຄືນ +5~15%
HyDE	ຄຳຖາມສັ້ນເກີນໄປ ຫຼື ບໍ່ມີຕົວຕົນ (ເຊັ່ນ "ເວົ້າເຖິງການສັງເຄາະແສງ"), ການຄົ້ນຫາໂດຍກົງບໍ່ໄດ້ຜົນ.	ໃຫ້ LLM ສ້າງຄຳຕອບສົມມຸດ ກ່ອນ, ແລ້ວໃຊ້ຄຳຕອບນັ້ນໄປຄົ້ນຫາເອກະສານ.	ໃຊ້ໄດ້ດີສຳລັບການຕອບຄຳຖາມແບບເປີດ, ແຕ່ບໍ່ເໝາະສຳລັບການຕອບຄຳຖາມແບບຂໍ້ເທັດຈິງທີ່ຊັດເຈນ
ການປັບ Top‑K	K ນ້ອຍເກີນໄປອາດພາດຂໍ້ມູນສຳຄັນ; K ໃຫຍ່ເກີນໄປເພີ່ມການໃຊ້ token ແລະ ສິ່ງລົບກວນ.	ທົດລອງ K=3/5/10, ສັງເກດຄວາມສົມດຸນລະຫວ່າງອັດຕາການດຶງຄືນ ແລະ ຄວາມຊື່ສັດຂອງຄຳຕອບ.	ການປະນີປະນອມລະຫວ່າງປະສິດທິພາບ ແລະ ຜົນໄດ້ຮັບ

ສາມ: ການປັບປຸງດ້ານການສ້າງ (ເຮັດໃຫ້ LLM ໃຊ້ເອກະສານອ້າງອີງໄດ້ດີ)

ຖ້າການຄົ້ນຫາຖືກຕ້ອງ ແຕ່ຄຳແນະນຳບໍ່ດີ ຫຼື ແບບຈຳລອງບໍ່ດີ, ກໍ່ບໍ່ມີປະໂຫຍດ.

ຈຸດປັບປຸງ	ປະກົດການທີ່ເກີດຂຶ້ນ	ວິທີການປະຕິບັດ	ຜົນໄດ້ຮັບ
ວິສະວະກຳຄຳແນະນຳ	LLM ບໍ່ສົນໃຈເອກະສານທີ່ຄົ້ນມາໄດ້, ຫຼື ສ້າງຂໍ້ມູນບໍ່ມີຈິງ.	ສັ່ງໃຫ້ຊັດເຈນ: "ຕອບຄຳຖາມໂດຍອີງໃສ່ເອກະສານທີ່ໃຫ້ໄວ້ເທົ່ານັ້ນ. ຖ້າເອກະສານບໍ່ພຽງພໍ ຫຼື ບໍ່ກ່ຽວຂ້ອງ, ໃຫ້ຕອບວ່າ 'ບໍ່ມີຂໍ້ມູນພຽງພໍ'." ເພີ່ມ ຕົວຢ່າງສອງສາມຕົວ ສະແດງວິທີອ້າງອີງແຫຼ່ງທີ່ມາ.	ຄວາມຊື່ສັດ +20~40%
ການບີບອັດບໍລິບົດ	ຂໍ້ມູນທີ່ຄົ້ນມາໄດ້ຍາວເກີນໄປ (ເກີນກວ່າ context window ຂອງແບບຈຳລອງ) ຫຼື ມີສິ່ງລົບກວນຫຼາຍ.	ໃຊ້ `LLMLingua` ຫຼື `ການເລືອກບໍລິບົດແບບເລືອກ` ບີບອັດ, ຮັກສາໄວ້ແຕ່ປະໂຫຍກທີ່ກ່ຽວຂ້ອງທີ່ສຸດກ່ອນສົ່ງໃຫ້ LLM.	ຫຼຸດຄວາມສ່ຽງທີ່ຈະສູນເສຍຂໍ້ມູນ
ການຍົກລະດັບ LLM	ແບບຈຳລອງນ້ອຍ (7B) ບໍ່ສາມາດຄິດສັບຊ້ອນ ຫຼື ຈື່ context ຍາວໆໄດ້.	ປ່ຽນໃຊ້ແບບຈຳລອງທີ່ແຂງແຮງກວ່າ (GPT‑4o, Claude 3.5 Sonnet, Qwen2.5‑72B).	ຄວາມຖືກຕ້ອງໃນການຄິດສັບຊ້ອນເພີ່ມຂຶ້ນຢ່າງຫຼວງຫຼາຍ
ການສະແດງຜົນແບບສະຕຣີມ ແລະ ການອ້າງອີງ	ຜູ້ໃຊ້ບໍ່ສາມາດກວດສອບຄວາມຖືກຕ້ອງຂອງຄຳຕອບ.	ໃຫ້ LLM ສົ່ງອອກ `[citation:1]` ໃນເວລາສ້າງ, ຊີ້ບອກເລກທີ່ຂອງເອກະສານທີ່ຄົ້ນມາໄດ້. ດ້ານຫຼັງແນບລິ້ງຂອງເອກະສານຕົ້ນສະບັບ.	ຄວາມເຊື່ອໝັ້ນຂອງຜູ້ໃຊ້ + ສາມາດດີບັກໄດ້
ການປັບການຕອບວ່າບໍ່ຮູ້	ແບບຈຳລອງສ້າງຂໍ້ມູນບໍ່ມີຈິງເມື່ອບໍ່ຄວນຕອບ, ຫຼື ບອກວ່າບໍ່ຮູ້ທັງທີ່ຄວນຕອບໄດ້.	ຕັ້ງຄ່າ ຄວາມຄ້າຍຄືກັນຕຳ່ສຸດ: ຖ້າ top‑1 chunk ມີ cosine similarity ກັບຄຳຖາມຕ່ຳກວ່າ 0.7, ແນະນຳ LLM ວ່າ "ຂໍ້ມູນບໍ່ກ່ຽວຂ້ອງ".	ຫຼຸດອັດຕາການສ້າງຂໍ້ມູນບໍ່ມີຈິງ

ສີ່: ດ້ານການປະເມີນ ແລະ ການປັບປຸງຊ້ຳ (ຮູ້ວ່າຈະປັບທາງໃດ)

ຖ້າບໍ່ມີການວັດແທກ, ກໍ່ບໍ່ສາມາດປັບປຸງໄດ້.

ຈຸດປັບປຸງ	ວິທີການ	ຕົວຊີ້ວັດ
ສ້າງຊຸດປະເມີນ	ກະກຽມ ຄຳຖາມຈາກຜູ້ໃຊ້ຈິງ 100~300 ຂໍ້ + ຄຳຕອບມາດຕະຖານ + ID ຂອງເອກະສານທີ່ຖືກຕ້ອງ.	ຄອບຄຸມລະດັບຄວາມຍາກ ແລະ ຈຸດປະສົງທີ່ແຕກຕ່າງກັນ.
ການປະເມີນອັດຕະໂນມັດ	ໃຊ້ RAGAS (Faithfulness, Answer Relevance, Context Recall) ຫຼື TruLens.	ສາມຕົວຊີ້ວັດຫຼັກ: ຄວາມຊື່ສັດ, ຄວາມກ່ຽວຂ້ອງຂອງຄຳຕອບ, ອັດຕາການດຶງຄືນຂອງບໍລິບົດ.
ການປະເມີນໂດຍມະນຸດ	ທຸກອາທິດ, ສຸ່ມກວດ 20 ກໍລະນີທີ່ບໍ່ດີ, ວິເຄາະປະເພດຂໍ້ຜິດພາດ (ການຄົ້ນຫາລົ້ມເຫຼວ / ການສ້າງຜິດ / ຂາດເອກະສານ).	ຈັດລຳດັບຄວາມສຳຄັນໃນການປັບປຸງ.
ການທົດສອບ A/B	ແບ່ງກຸ່ມໃນສະພາບແວດລ້ອມຜະລິດຕະພັນ ເພື່ອທົດສອບຍຸດທະສາດການຄົ້ນຫາທີ່ແຕກຕ່າງກັນ (ເຊັ່ນ BM25 ທຽບກັບການຄົ້ນຫາແບບປະສົມ).	ຕົວຊີ້ວັດອອນລາຍ: ຄວາມພໍໃຈຂອງຜູ້ໃຊ້, ອັດຕາການບໍ່ມີຄຳຕອບ.

ຫ້າ: ສິ່ງທີ່ສາມາດກ່າວເຖິງໃນການສຳພາດ ("ປະສົບການປະຕິບັດຕົວຈິງ") (ຈຸດເພີ່ມ)

"ໃນໂຄງການ RAG ທີ່ຂ້າພະເຈົ້າຮັບຜິດຊອບ, ອັດຕາການຖືກໃນຕອນຕົ້ນມີພຽງ 67%. ຂ້າພະເຈົ້າໄດ້ເຮັດສາມຢ່າງ:
1. ປ່ຽນການແບ່ງຂໍ້ຄວາມຈາກຄວາມຍາວຄົງທີ່ 1024 ເປັນການແບ່ງຕາມຄວາມໝາຍແບບເຄື່ອນທີ່ (ຕາມຫົວຂໍ້ + ວັກ), ອັດຕາການຖືກເພີ່ມຂຶ້ນເປັນ 74%;
2. ເພີ່ມການຄົ້ນຫາແບບປະສົມ (vector + BM25) ແລະ ແບບຈຳລອງ rerank ຂະໜາດນ້ອຍ, ອັດຕາການຖືກເພີ່ມຂຶ້ນເປັນ 83%;
3. ປັບປຸງຄຳແນະນຳ ແລະ ບັງຄັບໃຫ້ອອກ [ບໍ່ພົບຂໍ້ມູນທີ່ກ່ຽວຂ້ອງ], ອັດຕາການສ້າງຂໍ້ມູນບໍ່ມີຈິງຫຼຸດຈາກ 22% ລົງຕ່ຳກວ່າ 5%.

ນອກຈາກນັ້ນ, ພວກເຮົາໄດ້ສ້າງສາຍງານການປະເມີນຢ່າງຕໍ່ເນື່ອງ, ທຸກຄັ້ງທີ່ປ່ຽນແປງຈະແລ່ນ 200 ຄຳຖາມ ກັບຄະແນນ RAGAS ເພື່ອໃຫ້ແນ່ໃຈວ່າບໍ່ມີການເສື່ອມຄຸນນະພາບ."

ບົດສະຫຼຸບ: ແຜນຜັງການປັບປຸງ RAG ທີ່ສົມບູນ

ຊັ້ນຂໍ້ມູນ ─→ ການທຳຄວາມສະອາດເອກະສານ, ການເພີ່ມປະສິດທິພາບການແບ່ງ, ການເສີມ metadata, embedding ສາຂາສະເພາະ
ຊັ້ນຄົ້ນຫາ ─→ ການຄົ້ນຫາແບບປະສົມ, rerank, ການຂຽນຄຳຖາມຄືນ, HyDE, ການປັບ Top-K
ຊັ້ນສ້າງ ─→ ການເສີມຄຳແນະນຳ, ການຮຽກຮ້ອງ, ການບີບອັດ, ການອ້າງອີງ, ຄ່າເກນການປະຕິເສດ
ຊັ້ນປະເມີນ ─→ ຊຸດປະເມີນ, RAGAS, ການວິເຄາະໂດຍມະນຸດ, ການທົດລອງ A/B