← 返回列表

AI ຊຸດຄຳຖາມໃນການສຳພາດທີ 11: ຈະປັບປຸງ RAG ແນວໃດ?

ການປັບປຸງ RAG ບໍ່ແມ່ນການປັບປ່ຽນພຽງຂັ້ນຕອນດຽວ ແຕ່ເປັນຂະບວນການ ປັບປຸງສາຍໂສ້ທັງໝົດ. ຂ້າງລຸ່ມນີ້ຂ້າພະເຈົ້າຈະໃຫ້ຍຸດທະສາດການປັບປຸງຢ່າງເປັນລະບົບຈາກ ດ້ານການຈັດດັດສະນີຂໍ້ມູນ, ດ້ານການຄົ້ນຫາ, ດ້ານການສ້າງ, ແລະ ດ້ານການປະເມີນ ສີ່ມິຕິ, ພ້ອມທັງແນບປະສົບການປະຕິບັດຕົວຈິງທີ່ສາມາດກ່າວເຖິງໃນການສຳພາດ.


ຫນຶ່ງ: ການປັບປຸງດ້ານການຈັດດັດສະນີຂໍ້ມູນ (ປັບປຸງຄຸນນະພາບ "ຄັງຄວາມຮູ້")

ນີ້ແມ່ນຈຸດທີ່ຖືກລະເລີຍງ່າຍທີ່ສຸດ ແຕ່ກໍ່ເຫັນຜົນໄດ້ໄວທີ່ສຸດ.

ຈຸດປັບປຸງ ປະກົດການທີ່ເກີດຂຶ້ນ ວິທີການປະຕິບັດ ຕົວຊີ້ວັດຜົນໄດ້ຮັບ
ການວິເຄາະເອກະສານ ຕາຕະລາງ, ແຜນພາບໃນ PDF ຖືກລະເລີຍ ຫຼື ຕົວໜັງສືເສຍລຳດັບ. ໃຊ້ຫ້ອງສະໝຸດການວິເຄາະທີ່ດີກວ່າ (ເຊັ່ນ unstructured, pypdf ໃນໂໝດຮັກສາຮູບແບບ); ສຳລັບຕາຕະລາງ, ໃຊ້ pandas ສະກັດແລະປ່ຽນເປັນ Markdown. ອັດຕາການດຶງຄືນ +5~15%
ຂະໜາດຂອງການແບ່ງຂໍ້ຄວາມ chunk ນ້ອຍເກີນໄປເຮັດໃຫ້ບໍ່ມີບໍລິບົດ (ເຊັ່ນ "ລາວ" ໃນ "ລາຍຮັບປີນີ້ຂອງລາວ" ຫາຍ); chunk ໃຫຍ່ເກີນໄປເຮັດໃຫ້ມີສິ່ງລົບກວນຫຼາຍ. ທົດລອງ chunk size ຕ່າງໆ (256/512/768 token), overlap ຕັ້ງ 10~20%; ສຳລັບເອກະສານຍາວ, ຕັດຕາມຂອບເຂດຄວາມໝາຍ (ວັກ/ຫົວຂໍ້) ແທນຄວາມຍາວຄົງທີ່. ອັດຕາການຖືກ / ຄວາມຊື່ສັດ
ການເພີ່ມຂໍ້ມູນກຳກັບ ດຶງວັກທີ່ກ່ຽວຂ້ອງມາໄດ້ ແຕ່ບໍ່ສາມາດຕິດຕາມແຫຼ່ງທີ່ມາ ຫຼື ເວລາ. ເພີ່ມ metadata ໃສ່ທຸກ chunk: source (ຊື່ໄຟລ໌/URL), timestamp, page_num, doc_type. ໃຊ້ຕົວກັ່ນຕອງເມື່ອຄົ້ນຫາ (ເຊັ່ນ doc_type == 'legal'). ຄວາມຖືກຕ້ອງຂອງການກັ່ນຕອງ
ການເລືອກແບບຈຳລອງການຝັງ embedding ທົ່ວໄປໃຊ້ງານບໍ່ໄດ້ດີໃນສາຂາສະເພາະ (ການແພດ, ລະຫັດ, ກົດໝາຍ). ໃຊ້ແບບຈຳລອງທີ່ປັບສະເພາະສາຂາ (BGE‑large‑zh, GTE‑Qwen2‑7B‑instruct); ຫຼື ປັບແບບຈຳລອງ embedding ຂອງຕົນເອງ (ໃຊ້ triplet loss). MRR@10 ໃນການຄົ້ນຫາ +10~20%

ສອງ: ການປັບປຸງດ້ານການຄົ້ນຫາ (ເຮັດໃຫ້ "ການພິກປື້ມ" ຖືກຕ້ອງຂຶ້ນ)

ການຄົ້ນຫາເປັນຕົວກຳນົດຄຸນນະພາບຂອງ "ເອກະສານອ້າງອີງ" ທີ່ໃຫ້ LLM.

ຈຸດປັບປຸງ ປະກົດການທີ່ເກີດຂຶ້ນ ວິທີການປະຕິບັດ ຜົນໄດ້ຮັບ
ການຄົ້ນຫາແບບປະສົມ ການຄົ້ນຫາແບບ vector ບໍ່ສາມາດຈັບຄຳສັບເຕັກນິກໄດ້ (ເຊັ່ນ ລຸ້ນຜະລິດຕະພັນ ABC-123), ການຄົ້ນຫາແບບ keyword ບໍ່ເຂົ້າໃຈຄຳພ້ອມຄວາມໝາຍ. ໃຊ້ທັງ vector search (semantic) ແລະ BM25 (keyword), ຜະສົມໂດຍການຖ່ວງນ້ຳໜັກ (ເຊັ່ນ 0.7vector + 0.3BM25) ຫຼື fusion ຜ່ານ rerank. ອັດຕາການດຶງຄືນ +10~25%
ການຈັດລຳດັບຄືນ (Rerank) ຜົນລັບຕຳແໜ່ງທຳອິດຈາກ vector search ອາດບໍ່ກ່ຽວຂ້ອງທີ່ສຸດ, ຕຳແໜ່ງທີ 10 ອາດດີກວ່າ. ໃຊ້ cross‑encoder model (ເຊັ່ນ BGE‑reranker-v2, Cohere Rerank) ປະເມີນຄະແນນກັບຊຸດຕົວເລືອກ (ເຊັ່ນ 20 ອັນທຳອິດ) ແລ້ວເອົາ top‑K. ອັດຕາການຖືກເພີ່ມຂຶ້ນຢ່າງຫຼວງຫຼາຍ (ໂດຍສະເພາະ top‑1)
ການຂຽນຄຳຖາມຄືນ ຄຳຖາມຂອງຜູ້ໃຊ້ບໍ່ຊັດເຈນ ຫຼື ມີການອ້າງອີງທີ່ບໍ່ຊັດເຈນໃນການສົນທະນາຫຼາຍຮອບ ("ລາຄາຂອງມັນເທົ່າໃດ?"). ໃຊ້ LLM ປ່ຽນຄຳຖາມຕົ້ນສະບັບໃຫ້ເໝາະສົມກັບການຄົ້ນຫາຫຼາຍຂຶ້ນ (ເຊັ່ນ "ລາຄາຂອງ iPhone 15 ເທົ່າໃດ?"); ຫຼື ໃຊ້ປະຫວັດການສົນທະນາມາເຕີມເຕັມ. ອັດຕາການດຶງຄືນ +5~15%
HyDE ຄຳຖາມສັ້ນເກີນໄປ ຫຼື ບໍ່ມີຕົວຕົນ (ເຊັ່ນ "ເວົ້າເຖິງການສັງເຄາະແສງ"), ການຄົ້ນຫາໂດຍກົງບໍ່ໄດ້ຜົນ. ໃຫ້ LLM ສ້າງຄຳຕອບສົມມຸດ ກ່ອນ, ແລ້ວໃຊ້ຄຳຕອບນັ້ນໄປຄົ້ນຫາເອກະສານ. ໃຊ້ໄດ້ດີສຳລັບການຕອບຄຳຖາມແບບເປີດ, ແຕ່ບໍ່ເໝາະສຳລັບການຕອບຄຳຖາມແບບຂໍ້ເທັດຈິງທີ່ຊັດເຈນ
ການປັບ Top‑K K ນ້ອຍເກີນໄປອາດພາດຂໍ້ມູນສຳຄັນ; K ໃຫຍ່ເກີນໄປເພີ່ມການໃຊ້ token ແລະ ສິ່ງລົບກວນ. ທົດລອງ K=3/5/10, ສັງເກດຄວາມສົມດຸນລະຫວ່າງອັດຕາການດຶງຄືນ ແລະ ຄວາມຊື່ສັດຂອງຄຳຕອບ. ການປະນີປະນອມລະຫວ່າງປະສິດທິພາບ ແລະ ຜົນໄດ້ຮັບ

ສາມ: ການປັບປຸງດ້ານການສ້າງ (ເຮັດໃຫ້ LLM ໃຊ້ເອກະສານອ້າງອີງໄດ້ດີ)

ຖ້າການຄົ້ນຫາຖືກຕ້ອງ ແຕ່ຄຳແນະນຳບໍ່ດີ ຫຼື ແບບຈຳລອງບໍ່ດີ, ກໍ່ບໍ່ມີປະໂຫຍດ.

ຈຸດປັບປຸງ ປະກົດການທີ່ເກີດຂຶ້ນ ວິທີການປະຕິບັດ ຜົນໄດ້ຮັບ
ວິສະວະກຳຄຳແນະນຳ LLM ບໍ່ສົນໃຈເອກະສານທີ່ຄົ້ນມາໄດ້, ຫຼື ສ້າງຂໍ້ມູນບໍ່ມີຈິງ. ສັ່ງໃຫ້ຊັດເຈນ: "ຕອບຄຳຖາມໂດຍອີງໃສ່ເອກະສານທີ່ໃຫ້ໄວ້ເທົ່ານັ້ນ. ຖ້າເອກະສານບໍ່ພຽງພໍ ຫຼື ບໍ່ກ່ຽວຂ້ອງ, ໃຫ້ຕອບວ່າ 'ບໍ່ມີຂໍ້ມູນພຽງພໍ'." ເພີ່ມ ຕົວຢ່າງສອງສາມຕົວ ສະແດງວິທີອ້າງອີງແຫຼ່ງທີ່ມາ. ຄວາມຊື່ສັດ +20~40%
ການບີບອັດບໍລິບົດ ຂໍ້ມູນທີ່ຄົ້ນມາໄດ້ຍາວເກີນໄປ (ເກີນກວ່າ context window ຂອງແບບຈຳລອງ) ຫຼື ມີສິ່ງລົບກວນຫຼາຍ. ໃຊ້ LLMLingua ຫຼື ການເລືອກບໍລິບົດແບບເລືອກ ບີບອັດ, ຮັກສາໄວ້ແຕ່ປະໂຫຍກທີ່ກ່ຽວຂ້ອງທີ່ສຸດກ່ອນສົ່ງໃຫ້ LLM. ຫຼຸດຄວາມສ່ຽງທີ່ຈະສູນເສຍຂໍ້ມູນ
ການຍົກລະດັບ LLM ແບບຈຳລອງນ້ອຍ (7B) ບໍ່ສາມາດຄິດສັບຊ້ອນ ຫຼື ຈື່ context ຍາວໆໄດ້. ປ່ຽນໃຊ້ແບບຈຳລອງທີ່ແຂງແຮງກວ່າ (GPT‑4o, Claude 3.5 Sonnet, Qwen2.5‑72B). ຄວາມຖືກຕ້ອງໃນການຄິດສັບຊ້ອນເພີ່ມຂຶ້ນຢ່າງຫຼວງຫຼາຍ
ການສະແດງຜົນແບບສະຕຣີມ ແລະ ການອ້າງອີງ ຜູ້ໃຊ້ບໍ່ສາມາດກວດສອບຄວາມຖືກຕ້ອງຂອງຄຳຕອບ. ໃຫ້ LLM ສົ່ງອອກ [citation:1] ໃນເວລາສ້າງ, ຊີ້ບອກເລກທີ່ຂອງເອກະສານທີ່ຄົ້ນມາໄດ້. ດ້ານຫຼັງແນບລິ້ງຂອງເອກະສານຕົ້ນສະບັບ. ຄວາມເຊື່ອໝັ້ນຂອງຜູ້ໃຊ້ + ສາມາດດີບັກໄດ້
ການປັບການຕອບວ່າບໍ່ຮູ້ ແບບຈຳລອງສ້າງຂໍ້ມູນບໍ່ມີຈິງເມື່ອບໍ່ຄວນຕອບ, ຫຼື ບອກວ່າບໍ່ຮູ້ທັງທີ່ຄວນຕອບໄດ້. ຕັ້ງຄ່າ ຄວາມຄ້າຍຄືກັນຕຳ່ສຸດ: ຖ້າ top‑1 chunk ມີ cosine similarity ກັບຄຳຖາມຕ່ຳກວ່າ 0.7, ແນະນຳ LLM ວ່າ "ຂໍ້ມູນບໍ່ກ່ຽວຂ້ອງ". ຫຼຸດອັດຕາການສ້າງຂໍ້ມູນບໍ່ມີຈິງ

ສີ່: ດ້ານການປະເມີນ ແລະ ການປັບປຸງຊ້ຳ (ຮູ້ວ່າຈະປັບທາງໃດ)

ຖ້າບໍ່ມີການວັດແທກ, ກໍ່ບໍ່ສາມາດປັບປຸງໄດ້.

ຈຸດປັບປຸງ ວິທີການ ຕົວຊີ້ວັດ
ສ້າງຊຸດປະເມີນ ກະກຽມ ຄຳຖາມຈາກຜູ້ໃຊ້ຈິງ 100~300 ຂໍ້ + ຄຳຕອບມາດຕະຖານ + ID ຂອງເອກະສານທີ່ຖືກຕ້ອງ. ຄອບຄຸມລະດັບຄວາມຍາກ ແລະ ຈຸດປະສົງທີ່ແຕກຕ່າງກັນ.
ການປະເມີນອັດຕະໂນມັດ ໃຊ້ RAGAS (Faithfulness, Answer Relevance, Context Recall) ຫຼື TruLens. ສາມຕົວຊີ້ວັດຫຼັກ: ຄວາມຊື່ສັດ, ຄວາມກ່ຽວຂ້ອງຂອງຄຳຕອບ, ອັດຕາການດຶງຄືນຂອງບໍລິບົດ.
ການປະເມີນໂດຍມະນຸດ ທຸກອາທິດ, ສຸ່ມກວດ 20 ກໍລະນີທີ່ບໍ່ດີ, ວິເຄາະປະເພດຂໍ້ຜິດພາດ (ການຄົ້ນຫາລົ້ມເຫຼວ / ການສ້າງຜິດ / ຂາດເອກະສານ). ຈັດລຳດັບຄວາມສຳຄັນໃນການປັບປຸງ.
ການທົດສອບ A/B ແບ່ງກຸ່ມໃນສະພາບແວດລ້ອມຜະລິດຕະພັນ ເພື່ອທົດສອບຍຸດທະສາດການຄົ້ນຫາທີ່ແຕກຕ່າງກັນ (ເຊັ່ນ BM25 ທຽບກັບການຄົ້ນຫາແບບປະສົມ). ຕົວຊີ້ວັດອອນລາຍ: ຄວາມພໍໃຈຂອງຜູ້ໃຊ້, ອັດຕາການບໍ່ມີຄຳຕອບ.

ຫ້າ: ສິ່ງທີ່ສາມາດກ່າວເຖິງໃນການສຳພາດ ("ປະສົບການປະຕິບັດຕົວຈິງ") (ຈຸດເພີ່ມ)

"ໃນໂຄງການ RAG ທີ່ຂ້າພະເຈົ້າຮັບຜິດຊອບ, ອັດຕາການຖືກໃນຕອນຕົ້ນມີພຽງ 67%. ຂ້າພະເຈົ້າໄດ້ເຮັດສາມຢ່າງ:
1. ປ່ຽນການແບ່ງຂໍ້ຄວາມຈາກຄວາມຍາວຄົງທີ່ 1024 ເປັນການແບ່ງຕາມຄວາມໝາຍແບບເຄື່ອນທີ່ (ຕາມຫົວຂໍ້ + ວັກ), ອັດຕາການຖືກເພີ່ມຂຶ້ນເປັນ 74%;
2. ເພີ່ມການຄົ້ນຫາແບບປະສົມ (vector + BM25) ແລະ ແບບຈຳລອງ rerank ຂະໜາດນ້ອຍ, ອັດຕາການຖືກເພີ່ມຂຶ້ນເປັນ 83%;
3. ປັບປຸງຄຳແນະນຳ ແລະ ບັງຄັບໃຫ້ອອກ [ບໍ່ພົບຂໍ້ມູນທີ່ກ່ຽວຂ້ອງ], ອັດຕາການສ້າງຂໍ້ມູນບໍ່ມີຈິງຫຼຸດຈາກ 22% ລົງຕ່ຳກວ່າ 5%.

ນອກຈາກນັ້ນ, ພວກເຮົາໄດ້ສ້າງສາຍງານການປະເມີນຢ່າງຕໍ່ເນື່ອງ, ທຸກຄັ້ງທີ່ປ່ຽນແປງຈະແລ່ນ 200 ຄຳຖາມ ກັບຄະແນນ RAGAS ເພື່ອໃຫ້ແນ່ໃຈວ່າບໍ່ມີການເສື່ອມຄຸນນະພາບ."


ບົດສະຫຼຸບ: ແຜນຜັງການປັບປຸງ RAG ທີ່ສົມບູນ

ຊັ້ນຂໍ້ມູນ ─→ ການທຳຄວາມສະອາດເອກະສານ, ການເພີ່ມປະສິດທິພາບການແບ່ງ, ການເສີມ metadata, embedding ສາຂາສະເພາະ
ຊັ້ນຄົ້ນຫາ ─→ ການຄົ້ນຫາແບບປະສົມ, rerank, ການຂຽນຄຳຖາມຄືນ, HyDE, ການປັບ Top-K
ຊັ້ນສ້າງ ─→ ການເສີມຄຳແນະນຳ, ການຮຽກຮ້ອງ, ການບີບອັດ, ການອ້າງອີງ, ຄ່າເກນການປະຕິເສດ
ຊັ້ນປະເມີນ ─→ ຊຸດປະເມີນ, RAGAS, ການວິເຄາະໂດຍມະນຸດ, ການທົດລອງ A/B

评论

暂无已展示的评论。

发表评论(匿名)