AI ຊຸດຄຳຖາມໃນການສຳພາດທີ 11: ຈະປັບປຸງ RAG ແນວໃດ?
ການປັບປຸງ RAG ບໍ່ແມ່ນການປັບປ່ຽນພຽງຂັ້ນຕອນດຽວ ແຕ່ເປັນຂະບວນການ ປັບປຸງສາຍໂສ້ທັງໝົດ. ຂ້າງລຸ່ມນີ້ຂ້າພະເຈົ້າຈະໃຫ້ຍຸດທະສາດການປັບປຸງຢ່າງເປັນລະບົບຈາກ ດ້ານການຈັດດັດສະນີຂໍ້ມູນ, ດ້ານການຄົ້ນຫາ, ດ້ານການສ້າງ, ແລະ ດ້ານການປະເມີນ ສີ່ມິຕິ, ພ້ອມທັງແນບປະສົບການປະຕິບັດຕົວຈິງທີ່ສາມາດກ່າວເຖິງໃນການສຳພາດ.
ຫນຶ່ງ: ການປັບປຸງດ້ານການຈັດດັດສະນີຂໍ້ມູນ (ປັບປຸງຄຸນນະພາບ "ຄັງຄວາມຮູ້")
ນີ້ແມ່ນຈຸດທີ່ຖືກລະເລີຍງ່າຍທີ່ສຸດ ແຕ່ກໍ່ເຫັນຜົນໄດ້ໄວທີ່ສຸດ.
| ຈຸດປັບປຸງ | ປະກົດການທີ່ເກີດຂຶ້ນ | ວິທີການປະຕິບັດ | ຕົວຊີ້ວັດຜົນໄດ້ຮັບ |
|---|---|---|---|
| ການວິເຄາະເອກະສານ | ຕາຕະລາງ, ແຜນພາບໃນ PDF ຖືກລະເລີຍ ຫຼື ຕົວໜັງສືເສຍລຳດັບ. | ໃຊ້ຫ້ອງສະໝຸດການວິເຄາະທີ່ດີກວ່າ (ເຊັ່ນ unstructured, pypdf ໃນໂໝດຮັກສາຮູບແບບ); ສຳລັບຕາຕະລາງ, ໃຊ້ pandas ສະກັດແລະປ່ຽນເປັນ Markdown. |
ອັດຕາການດຶງຄືນ +5~15% |
| ຂະໜາດຂອງການແບ່ງຂໍ້ຄວາມ | chunk ນ້ອຍເກີນໄປເຮັດໃຫ້ບໍ່ມີບໍລິບົດ (ເຊັ່ນ "ລາວ" ໃນ "ລາຍຮັບປີນີ້ຂອງລາວ" ຫາຍ); chunk ໃຫຍ່ເກີນໄປເຮັດໃຫ້ມີສິ່ງລົບກວນຫຼາຍ. | ທົດລອງ chunk size ຕ່າງໆ (256/512/768 token), overlap ຕັ້ງ 10~20%; ສຳລັບເອກະສານຍາວ, ຕັດຕາມຂອບເຂດຄວາມໝາຍ (ວັກ/ຫົວຂໍ້) ແທນຄວາມຍາວຄົງທີ່. | ອັດຕາການຖືກ / ຄວາມຊື່ສັດ |
| ການເພີ່ມຂໍ້ມູນກຳກັບ | ດຶງວັກທີ່ກ່ຽວຂ້ອງມາໄດ້ ແຕ່ບໍ່ສາມາດຕິດຕາມແຫຼ່ງທີ່ມາ ຫຼື ເວລາ. | ເພີ່ມ metadata ໃສ່ທຸກ chunk: source (ຊື່ໄຟລ໌/URL), timestamp, page_num, doc_type. ໃຊ້ຕົວກັ່ນຕອງເມື່ອຄົ້ນຫາ (ເຊັ່ນ doc_type == 'legal'). |
ຄວາມຖືກຕ້ອງຂອງການກັ່ນຕອງ |
| ການເລືອກແບບຈຳລອງການຝັງ | embedding ທົ່ວໄປໃຊ້ງານບໍ່ໄດ້ດີໃນສາຂາສະເພາະ (ການແພດ, ລະຫັດ, ກົດໝາຍ). | ໃຊ້ແບບຈຳລອງທີ່ປັບສະເພາະສາຂາ (BGE‑large‑zh, GTE‑Qwen2‑7B‑instruct); ຫຼື ປັບແບບຈຳລອງ embedding ຂອງຕົນເອງ (ໃຊ້ triplet loss). | MRR@10 ໃນການຄົ້ນຫາ +10~20% |
ສອງ: ການປັບປຸງດ້ານການຄົ້ນຫາ (ເຮັດໃຫ້ "ການພິກປື້ມ" ຖືກຕ້ອງຂຶ້ນ)
ການຄົ້ນຫາເປັນຕົວກຳນົດຄຸນນະພາບຂອງ "ເອກະສານອ້າງອີງ" ທີ່ໃຫ້ LLM.
| ຈຸດປັບປຸງ | ປະກົດການທີ່ເກີດຂຶ້ນ | ວິທີການປະຕິບັດ | ຜົນໄດ້ຮັບ |
|---|---|---|---|
| ການຄົ້ນຫາແບບປະສົມ | ການຄົ້ນຫາແບບ vector ບໍ່ສາມາດຈັບຄຳສັບເຕັກນິກໄດ້ (ເຊັ່ນ ລຸ້ນຜະລິດຕະພັນ ABC-123), ການຄົ້ນຫາແບບ keyword ບໍ່ເຂົ້າໃຈຄຳພ້ອມຄວາມໝາຍ. |
ໃຊ້ທັງ vector search (semantic) ແລະ BM25 (keyword), ຜະສົມໂດຍການຖ່ວງນ້ຳໜັກ (ເຊັ່ນ 0.7vector + 0.3BM25) ຫຼື fusion ຜ່ານ rerank. | ອັດຕາການດຶງຄືນ +10~25% |
| ການຈັດລຳດັບຄືນ (Rerank) | ຜົນລັບຕຳແໜ່ງທຳອິດຈາກ vector search ອາດບໍ່ກ່ຽວຂ້ອງທີ່ສຸດ, ຕຳແໜ່ງທີ 10 ອາດດີກວ່າ. | ໃຊ້ cross‑encoder model (ເຊັ່ນ BGE‑reranker-v2, Cohere Rerank) ປະເມີນຄະແນນກັບຊຸດຕົວເລືອກ (ເຊັ່ນ 20 ອັນທຳອິດ) ແລ້ວເອົາ top‑K. |
ອັດຕາການຖືກເພີ່ມຂຶ້ນຢ່າງຫຼວງຫຼາຍ (ໂດຍສະເພາະ top‑1) |
| ການຂຽນຄຳຖາມຄືນ | ຄຳຖາມຂອງຜູ້ໃຊ້ບໍ່ຊັດເຈນ ຫຼື ມີການອ້າງອີງທີ່ບໍ່ຊັດເຈນໃນການສົນທະນາຫຼາຍຮອບ ("ລາຄາຂອງມັນເທົ່າໃດ?"). | ໃຊ້ LLM ປ່ຽນຄຳຖາມຕົ້ນສະບັບໃຫ້ເໝາະສົມກັບການຄົ້ນຫາຫຼາຍຂຶ້ນ (ເຊັ່ນ "ລາຄາຂອງ iPhone 15 ເທົ່າໃດ?"); ຫຼື ໃຊ້ປະຫວັດການສົນທະນາມາເຕີມເຕັມ. | ອັດຕາການດຶງຄືນ +5~15% |
| HyDE | ຄຳຖາມສັ້ນເກີນໄປ ຫຼື ບໍ່ມີຕົວຕົນ (ເຊັ່ນ "ເວົ້າເຖິງການສັງເຄາະແສງ"), ການຄົ້ນຫາໂດຍກົງບໍ່ໄດ້ຜົນ. | ໃຫ້ LLM ສ້າງຄຳຕອບສົມມຸດ ກ່ອນ, ແລ້ວໃຊ້ຄຳຕອບນັ້ນໄປຄົ້ນຫາເອກະສານ. | ໃຊ້ໄດ້ດີສຳລັບການຕອບຄຳຖາມແບບເປີດ, ແຕ່ບໍ່ເໝາະສຳລັບການຕອບຄຳຖາມແບບຂໍ້ເທັດຈິງທີ່ຊັດເຈນ |
| ການປັບ Top‑K | K ນ້ອຍເກີນໄປອາດພາດຂໍ້ມູນສຳຄັນ; K ໃຫຍ່ເກີນໄປເພີ່ມການໃຊ້ token ແລະ ສິ່ງລົບກວນ. | ທົດລອງ K=3/5/10, ສັງເກດຄວາມສົມດຸນລະຫວ່າງອັດຕາການດຶງຄືນ ແລະ ຄວາມຊື່ສັດຂອງຄຳຕອບ. | ການປະນີປະນອມລະຫວ່າງປະສິດທິພາບ ແລະ ຜົນໄດ້ຮັບ |
ສາມ: ການປັບປຸງດ້ານການສ້າງ (ເຮັດໃຫ້ LLM ໃຊ້ເອກະສານອ້າງອີງໄດ້ດີ)
ຖ້າການຄົ້ນຫາຖືກຕ້ອງ ແຕ່ຄຳແນະນຳບໍ່ດີ ຫຼື ແບບຈຳລອງບໍ່ດີ, ກໍ່ບໍ່ມີປະໂຫຍດ.
| ຈຸດປັບປຸງ | ປະກົດການທີ່ເກີດຂຶ້ນ | ວິທີການປະຕິບັດ | ຜົນໄດ້ຮັບ |
|---|---|---|---|
| ວິສະວະກຳຄຳແນະນຳ | LLM ບໍ່ສົນໃຈເອກະສານທີ່ຄົ້ນມາໄດ້, ຫຼື ສ້າງຂໍ້ມູນບໍ່ມີຈິງ. | ສັ່ງໃຫ້ຊັດເຈນ: "ຕອບຄຳຖາມໂດຍອີງໃສ່ເອກະສານທີ່ໃຫ້ໄວ້ເທົ່ານັ້ນ. ຖ້າເອກະສານບໍ່ພຽງພໍ ຫຼື ບໍ່ກ່ຽວຂ້ອງ, ໃຫ້ຕອບວ່າ 'ບໍ່ມີຂໍ້ມູນພຽງພໍ'." ເພີ່ມ ຕົວຢ່າງສອງສາມຕົວ ສະແດງວິທີອ້າງອີງແຫຼ່ງທີ່ມາ. | ຄວາມຊື່ສັດ +20~40% |
| ການບີບອັດບໍລິບົດ | ຂໍ້ມູນທີ່ຄົ້ນມາໄດ້ຍາວເກີນໄປ (ເກີນກວ່າ context window ຂອງແບບຈຳລອງ) ຫຼື ມີສິ່ງລົບກວນຫຼາຍ. | ໃຊ້ LLMLingua ຫຼື ການເລືອກບໍລິບົດແບບເລືອກ ບີບອັດ, ຮັກສາໄວ້ແຕ່ປະໂຫຍກທີ່ກ່ຽວຂ້ອງທີ່ສຸດກ່ອນສົ່ງໃຫ້ LLM. |
ຫຼຸດຄວາມສ່ຽງທີ່ຈະສູນເສຍຂໍ້ມູນ |
| ການຍົກລະດັບ LLM | ແບບຈຳລອງນ້ອຍ (7B) ບໍ່ສາມາດຄິດສັບຊ້ອນ ຫຼື ຈື່ context ຍາວໆໄດ້. | ປ່ຽນໃຊ້ແບບຈຳລອງທີ່ແຂງແຮງກວ່າ (GPT‑4o, Claude 3.5 Sonnet, Qwen2.5‑72B). | ຄວາມຖືກຕ້ອງໃນການຄິດສັບຊ້ອນເພີ່ມຂຶ້ນຢ່າງຫຼວງຫຼາຍ |
| ການສະແດງຜົນແບບສະຕຣີມ ແລະ ການອ້າງອີງ | ຜູ້ໃຊ້ບໍ່ສາມາດກວດສອບຄວາມຖືກຕ້ອງຂອງຄຳຕອບ. | ໃຫ້ LLM ສົ່ງອອກ [citation:1] ໃນເວລາສ້າງ, ຊີ້ບອກເລກທີ່ຂອງເອກະສານທີ່ຄົ້ນມາໄດ້. ດ້ານຫຼັງແນບລິ້ງຂອງເອກະສານຕົ້ນສະບັບ. |
ຄວາມເຊື່ອໝັ້ນຂອງຜູ້ໃຊ້ + ສາມາດດີບັກໄດ້ |
| ການປັບການຕອບວ່າບໍ່ຮູ້ | ແບບຈຳລອງສ້າງຂໍ້ມູນບໍ່ມີຈິງເມື່ອບໍ່ຄວນຕອບ, ຫຼື ບອກວ່າບໍ່ຮູ້ທັງທີ່ຄວນຕອບໄດ້. | ຕັ້ງຄ່າ ຄວາມຄ້າຍຄືກັນຕຳ່ສຸດ: ຖ້າ top‑1 chunk ມີ cosine similarity ກັບຄຳຖາມຕ່ຳກວ່າ 0.7, ແນະນຳ LLM ວ່າ "ຂໍ້ມູນບໍ່ກ່ຽວຂ້ອງ". | ຫຼຸດອັດຕາການສ້າງຂໍ້ມູນບໍ່ມີຈິງ |
ສີ່: ດ້ານການປະເມີນ ແລະ ການປັບປຸງຊ້ຳ (ຮູ້ວ່າຈະປັບທາງໃດ)
ຖ້າບໍ່ມີການວັດແທກ, ກໍ່ບໍ່ສາມາດປັບປຸງໄດ້.
| ຈຸດປັບປຸງ | ວິທີການ | ຕົວຊີ້ວັດ |
|---|---|---|
| ສ້າງຊຸດປະເມີນ | ກະກຽມ ຄຳຖາມຈາກຜູ້ໃຊ້ຈິງ 100~300 ຂໍ້ + ຄຳຕອບມາດຕະຖານ + ID ຂອງເອກະສານທີ່ຖືກຕ້ອງ. | ຄອບຄຸມລະດັບຄວາມຍາກ ແລະ ຈຸດປະສົງທີ່ແຕກຕ່າງກັນ. |
| ການປະເມີນອັດຕະໂນມັດ | ໃຊ້ RAGAS (Faithfulness, Answer Relevance, Context Recall) ຫຼື TruLens. | ສາມຕົວຊີ້ວັດຫຼັກ: ຄວາມຊື່ສັດ, ຄວາມກ່ຽວຂ້ອງຂອງຄຳຕອບ, ອັດຕາການດຶງຄືນຂອງບໍລິບົດ. |
| ການປະເມີນໂດຍມະນຸດ | ທຸກອາທິດ, ສຸ່ມກວດ 20 ກໍລະນີທີ່ບໍ່ດີ, ວິເຄາະປະເພດຂໍ້ຜິດພາດ (ການຄົ້ນຫາລົ້ມເຫຼວ / ການສ້າງຜິດ / ຂາດເອກະສານ). | ຈັດລຳດັບຄວາມສຳຄັນໃນການປັບປຸງ. |
| ການທົດສອບ A/B | ແບ່ງກຸ່ມໃນສະພາບແວດລ້ອມຜະລິດຕະພັນ ເພື່ອທົດສອບຍຸດທະສາດການຄົ້ນຫາທີ່ແຕກຕ່າງກັນ (ເຊັ່ນ BM25 ທຽບກັບການຄົ້ນຫາແບບປະສົມ). | ຕົວຊີ້ວັດອອນລາຍ: ຄວາມພໍໃຈຂອງຜູ້ໃຊ້, ອັດຕາການບໍ່ມີຄຳຕອບ. |
ຫ້າ: ສິ່ງທີ່ສາມາດກ່າວເຖິງໃນການສຳພາດ ("ປະສົບການປະຕິບັດຕົວຈິງ") (ຈຸດເພີ່ມ)
"ໃນໂຄງການ RAG ທີ່ຂ້າພະເຈົ້າຮັບຜິດຊອບ, ອັດຕາການຖືກໃນຕອນຕົ້ນມີພຽງ 67%. ຂ້າພະເຈົ້າໄດ້ເຮັດສາມຢ່າງ:
1. ປ່ຽນການແບ່ງຂໍ້ຄວາມຈາກຄວາມຍາວຄົງທີ່ 1024 ເປັນການແບ່ງຕາມຄວາມໝາຍແບບເຄື່ອນທີ່ (ຕາມຫົວຂໍ້ + ວັກ), ອັດຕາການຖືກເພີ່ມຂຶ້ນເປັນ 74%;
2. ເພີ່ມການຄົ້ນຫາແບບປະສົມ (vector + BM25) ແລະ ແບບຈຳລອງ rerank ຂະໜາດນ້ອຍ, ອັດຕາການຖືກເພີ່ມຂຶ້ນເປັນ 83%;
3. ປັບປຸງຄຳແນະນຳ ແລະ ບັງຄັບໃຫ້ອອກ[ບໍ່ພົບຂໍ້ມູນທີ່ກ່ຽວຂ້ອງ], ອັດຕາການສ້າງຂໍ້ມູນບໍ່ມີຈິງຫຼຸດຈາກ 22% ລົງຕ່ຳກວ່າ 5%.ນອກຈາກນັ້ນ, ພວກເຮົາໄດ້ສ້າງສາຍງານການປະເມີນຢ່າງຕໍ່ເນື່ອງ, ທຸກຄັ້ງທີ່ປ່ຽນແປງຈະແລ່ນ 200 ຄຳຖາມ ກັບຄະແນນ RAGAS ເພື່ອໃຫ້ແນ່ໃຈວ່າບໍ່ມີການເສື່ອມຄຸນນະພາບ."
ບົດສະຫຼຸບ: ແຜນຜັງການປັບປຸງ RAG ທີ່ສົມບູນ
ຊັ້ນຂໍ້ມູນ ─→ ການທຳຄວາມສະອາດເອກະສານ, ການເພີ່ມປະສິດທິພາບການແບ່ງ, ການເສີມ metadata, embedding ສາຂາສະເພາະ
ຊັ້ນຄົ້ນຫາ ─→ ການຄົ້ນຫາແບບປະສົມ, rerank, ການຂຽນຄຳຖາມຄືນ, HyDE, ການປັບ Top-K
ຊັ້ນສ້າງ ─→ ການເສີມຄຳແນະນຳ, ການຮຽກຮ້ອງ, ການບີບອັດ, ການອ້າງອີງ, ຄ່າເກນການປະຕິເສດ
ຊັ້ນປະເມີນ ─→ ຊຸດປະເມີນ, RAGAS, ການວິເຄາະໂດຍມະນຸດ, ການທົດລອງ A/B
评论
暂无已展示的评论。
发表评论(匿名)