AI ຊຸດສຳພາດ 9: ເຫັນແນວໃດກັບຄວາມຖືກຕ້ອງຂອງລະບົບຕອບຄຳຖາມຄວາມຮູ້?

ຄວາມຖືກຕ້ອງແມ່ນສາຍຊີວິດຫຼັກຂອງລະບົບຕອບຄຳຖາມຄວາມຮູ້, ໂດຍສະເພາະເມື່ອທ່ານພະຍາຍາມນຳໃຊ້ມັນໃນສະຖານະການທີ່ຮ້າຍແຮງ (ເຊັ່ນ: ການແພດ, ກົດໝາຍ, ການສະໜັບສະໜູນພາຍໃນອົງກອນ). ຄວາມຄິດເຫັນຂອງຂ້ອຍສາມາດສະຫຼຸບໄດ້ວ່າ: ຄວາມຖືກຕ້ອງແມ່ນແນວຄວາມຄິດທີ່ຫຼາຍມິຕິ, ບໍ່ສາມາດເບິ່ງພຽງແຕ່ຕົວເລກດຽວ, ແຕ່ຕ້ອງປະສົມປະສານກັບຄວາມສາມາດຂອງລະບົບ, ຄວາມຫຍຸ້ງຍາກຂອງວຽກ ແລະ ຄ່າໃຊ້ຈ່າຍໃນການທົນທານຕໍ່ຄວາມຜິດພາດ.

ຂ້າງລຸ່ມນີ້ແມ່ນການຂະຫຍາຍອອກເປັນສີ່ລະດັບ:

ສ່ວນທີໜຶ່ງ: ຄວາມຖືກຕ້ອງບໍ່ແມ່ນພຽງແຕ່ "ຖືກ/ຜິດ" ງ່າຍໆ

ຄວາມຖືກຕ້ອງຂອງບັນຫາການຈຳແນກແບບດັ້ງເດີມ (ເຊັ່ນ: ການຮັບຮູ້ຮູບພາບ) ແມ່ນຊັດເຈນ. ແຕ່ລະບົບຕອບຄຳຖາມຄວາມຮູ້ແຕກຕ່າງກັນ, ມິຕິຍ່ອຍທີ່ພົບເລື້ອຍລວມມີ:

ມິຕິ	ຄວາມໝາຍ	ຕົວຢ່າງການປະເມີນ
ອັດຕາການຕີເອກະສານຄືນ	ລະບົບສາມາດດຶງເອົາບລັອກເອກະສານທີ່ມີຄຳຕອບທີ່ຖືກຕ້ອງຈາກຖານຄວາມຮູ້ໄດ້ຫຼືບໍ່?	ຜູ້ໃຊ້ຖາມ "ລາຍຮັບປີ 2024 ຂອງບໍລິສັດ A", ລະບົບສາມາດດຶງເອົາບລັອກທີ່ມີຂໍ້ມູນນັ້ນໃນບົດລາຍງານການເງິນໄດ້ບໍ?
ຄວາມຊື່ສັດໃນການສ້າງ	ຄຳຕອບທີ່ແບບຈຳລອງສ້າງຂຶ້ນແມ່ນ ອີງຕາມ ເນື້ອຫາທີ່ດຶງມາ ຫຼື ສ້າງຂຶ້ນເອງ?	ເອກະສານທີ່ດຶງມາບໍ່ໄດ້ກ່າວເຖິງ "ອັດຕາການເຕີບໂຕ", ແຕ່ແບບຈຳລອງເວົ້າວ່າ "ເຕີບໂຕ 5%" → ບໍ່ຊື່ສັດ
ຄວາມຖືກຕ້ອງຂອງຄຳຕອບ	ຄຳຕອບສຸດທ້າຍສອດຄ່ອງກັບຂໍ້ເທັດຈິງ (ຫຼື ຄຳຕອບອ້າງອີງ) ຫຼືບໍ່?	ຄຳຕອບທີ່ຖືກຕ້ອງແມ່ນ "4.2 ຕື້", ແບບຈຳລອງຜົນອອກ "4.2 ຕື້" ຫຼື "ປະມານ 4.2 ຕື້ຢວນ" ຖືວ່າຖືກຕ້ອງ
ອັດຕາການປະຕິເສດ	ເມື່ອຖານຄວາມຮູ້ບໍ່ມີຂໍ້ມູນທີ່ກ່ຽວຂ້ອງ, ລະບົບສາມາດເວົ້າວ່າ "ບໍ່ຮູ້" ແທນທີ່ຈະເດົາໄດ້ບໍ?	ເມື່ອການດຶງຂໍ້ມູນບໍ່ມີຫຼືລະດັບຄວາມໝັ້ນໃຈຕໍ່າ, ຜົນອອກແມ່ນ "ຂໍອະໄພ, ບໍ່ພົບຂໍ້ມູນທີ່ກ່ຽວຂ້ອງ"

ລະບົບໜຶ່ງອາດມີອັດຕາການຕີເອກະສານຄືນສູງ (ສາມາດຊອກຫາວັກທີ່ກ່ຽວຂ້ອງໄດ້ສະເໝີ), ແຕ່ຄວາມຊື່ສັດໃນການສ້າງຕໍ່າ (ມັກເພີ່ມເຕີມ), ສຸດທ້າຍຄວາມຖືກຕ້ອງກໍຍັງບໍ່ດີ. ດັ່ງນັ້ນ, ການເບິ່ງຄວາມຖືກຕ້ອງຕ້ອງກຳນົດກ່ອນວ່າທ່ານວັດແທກຈຸດໃດ.

ສ່ວນທີສອງ: ພາຍໃຕ້ເຕັກໂນໂລຊີປະຈຸບັນ, ຄວາມຖືກຕ້ອງຂອງລະບົບ RAG ສາມາດເຖິງເທົ່າໃດ?

ບໍ່ມີຕົວເລກທີ່ເປັນເອກະພາບ, ແຕ່ສາມາດອ້າງອີງການຄົ້ນຄວ້າ ແລະ ການປະຕິບັດທີ່ເປີດເຜີຍ:

ການຕອບຄຳຖາມແບບຂໍ້ເທັດຈິງງ່າຍໆ (ການກະໂດດດຽວ, ຄຳຕອບປະກົດໂດຍກົງໃນຂໍ້ມູນວັກດຽວ):
ອັດຕາການຕີເອກະສານຄືນສາມາດເຖິງ 90-98% (ຂຶ້ນກັບຄຸນນະພາບຖານຄວາມຮູ້ ແລະ ຕົວດຶງຂໍ້ມູນ), ຄວາມຊື່ສັດໃນການສ້າງພາຍໃຕ້ການອອກແບບຄຳແນະນຳທີ່ດີໃຫ້ເຖິງ 95%+, ຄວາມຖືກຕ້ອງລວມສາມາດຢູ່ລະຫວ່າງ 85-95%.
ການອະມະນວິທະຍາແບບຫຼາຍຂັ້ນ (ຕ້ອງການລວມຂໍ້ມູນຈາກວັກສອງວັກຂຶ້ນໄປ):
ອັດຕາການຕີເອກະສານຄືນຫຼຸດລົງຫຼາຍ 50-70%, ຄວາມຖືກຕ້ອງຂອງຄຳຕອບອາດມີພຽງ 40-60%. ນີ້ແມ່ນຈຸດຍາກຫຼັກຂອງ RAG ໃນປະຈຸບັນ.
ໂດເມນເປີດ + ຖານຄວາມຮູ້ທີ່ມີສິ່ງລົບກວນ (ເຊັ່ນ: ເວັບໄຊຕ່າງໆຈຳນວນຫຼາຍ):
ຄວາມຖືກຕ້ອງຈະຫຼຸດລົງຢ່າງຫຼວງຫຼາຍ, ເພາະການດຶງຂໍ້ມູນອາດເອົາເສັ້ນປະສາດມາ, ແບບຈຳລອງມັກຖືກລົບກວນ.

ສະຫຼຸບ: ໃນສະພາບແວດລ້ອມທີ່ຄວບຄຸມ (ສະອາດ, ມີໂຄງສ້າງ, ຂະໜາດເອກະສານເໝາະສົມ), RAG ສາມາດເຮັດໄດ້ຫຼາຍກວ່າ 90% ຄວາມຖືກຕ້ອງ; ແຕ່ໃນສະຖານະການທີ່ຊັບຊ້ອນ, ເປີດ, ຕ້ອງການການອະມະນຫຼາຍຂັ້ນ, ຄວາມຖືກຕ້ອງມັກບໍ່ເປັນທີ່ພໍໃຈ, ຕ້ອງການການເພີ່ມປະສິດທິພາບຫຼາຍ.

ສ່ວນທີສາມ: ປັດໃຈຫຼັກທີ່ສົ່ງຜົນກະທົບຕໍ່ຄວາມຖືກຕ້ອງ

ຖ້າທ່ານພົບວ່າຄວາມຖືກຕ້ອງຂອງລະບົບ RAG ຂອງທ່ານບໍ່ດີ, ສາມາດກວດສອບຈາກສີ່ຂັ້ນຕອນຕໍ່ໄປນີ້:

ຖານຄວາມຮູ້ຕົວເອງ
ຂໍ້ມູນລ້າສະໄໝ, ບໍ່ຄົບຖ້ວນ, ຫຼື ມີຂໍ້ຜິດພາດບໍ?
ເອກະສານວຸ່ນວາຍ (ເຊັ່ນ: ເອກະສານສະແກນທີ່ບໍ່ໄດ້ OCR, ຕາຕະລາງຖືກແຍກກາຍເປັນຂໍ້ຄວາມທີ່ບໍ່ສອດຄ່ອງ) ບໍ?
ການແຍກ ແລະ ດັດຊະນີ
ບລັອກຂໍ້ຄວາມຖືກຕັດສັ້ນເກີນໄປ → ສູນເສຍບໍລິບົດ; ຍາວເກີນໄປ → ເພີ່ມສິ່ງລົບກວນ.
ໂມເດວຝັງຂໍ້ຄວາມ (embedding model) ເໝາະສົມກັບໂດເໝນຂອງທ່ານບໍ (ໂມເດວທົ່ວໄປອາດມີປະສິດທິພາບບໍ່ດີໃນຄຳສັບທາງກົດໝາຍ)?
ຍຸດທະສາດການດຶງຂໍ້ມູນ
ໃຊ້ພຽງແຕ່ການດຶງຂໍ້ມູນແບບເວັກເຕີ ອາດລະເລີຍຄຳສຳຄັນທີ່ແນ່ນອນ (ເຊັ່ນ: ລຸ້ນສິນຄ້າ).
ບໍ່ໄດ້ຈັດອັນດັບຄືນ (re-rank) ເຮັດໃຫ້ຜົນໄດ້ຮັບແຖວໜ້າມີເນື້ອຫາທີ່ບໍ່ກ່ຽວຂ້ອງ.
ຂັ້ນຕອນການສ້າງ
ຄຳແນະນຳ (prompt) ກຳນົດຢ່າງຊັດເຈນວ່າ "ຕອບໂດຍອີງຕາມຂໍ້ມູນທີ່ໃຫ້ໄວ້ເທົ່ານັ້ນ, ຖ້າບໍ່ພໍພຽງໃຫ້ປະຕິເສດ" ບໍ?
ຄວາມສາມາດຂອງແບບຈຳລອງພຽງພໍບໍ (ແບບຈຳລອງນ້ອຍມັກລະເລີຍລາຍລະອຽດໃນບໍລິບົດຍາວ)?

ຄວາມເຂົ້າໃຈຜິດທີ່ພົບເລື້ອຍ: ການໃສ່ໂທດຄວາມຖືກຕ້ອງຕໍ່າໃສ່ຄວາມສາມາດ LLM ທີ່ບໍ່ພຽງພໍ, ແຕ່ໃນຄວາມຈິງບັນຫາສ່ວນໃຫຍ່ມາຈາກ "ການດຶງຂໍ້ມູນ" ແລະ "ການອອກແບບຄຳແນະນຳ".

ສ່ວນທີສີ່: ວິທີການ "ເບິ່ງ" ຄວາມຖືກຕ້ອງຢ່າງຖືກຕ້ອງ — ທັດສະນະທີ່ສຳຄັນໃນການປະຕິບັດ

1. ກຳນົດເກນ ແລະ ຄວາມຄາດຫວັງທີ່ເໝາະສົມ

ສຳລັບໂດເໝນທີ່ມີຄວາມສ່ຽງສູງ (ການວິນິດໄສທາງການແພດ, ຄຳແນະນຳທາງກົດໝາຍ), ຄວາມຖືກຕ້ອງ 90% ກໍຍັງບໍ່ພໍ, ຕ້ອງນຳໃຊ້ການທົບທວນຂອງມະນຸດ ຫຼື ການກວດສອບຫຼາຍຊັ້ນ.
ສຳລັບສະຖານະການທີ່ມີຄວາມສ່ຽງຕໍ່າ (ການບໍລິການລູກຄ້າ, ການຊອກຫາຄວາມຮູ້ພາຍໃນ), ຄວາມຖືກຕ້ອງ 80% ບວກກັບການຕອບ "ບໍ່ຮູ້" ທີ່ເປັນມິດ, ອາດສາມາດເພີ່ມປະສິດທິພາບໄດ້ຢ່າງຫຼວງຫຼາຍ.

2. ຢ່າໄລ່ຕາມ 100%, ໄລ່ຕາມ "ຄວາມຖືກຕ້ອງທີ່ສາມາດກວດສອບໄດ້"

ໃຫ້ລະບົບ ຕິດແຫຼ່ງທີ່ມາໂດຍອັດຕະໂນມັດ (ອ້າງອີງບົດຄວາມໃດ, ວັກໃດ).
ຜູ້ໃຊ້ສາມາດເບິ່ງຕົ້ນສະບັບເພື່ອກວດສອບເອງ, ເຖິງແມ່ນຄຳຕອບຈະຜິດບາງຄັ້ງ, ຄວາມໂປ່ງໃສກໍສາມາດສ້າງຄວາມໄວ້ໃຈໄດ້.
ເພີ່ມ ຄະແນນລະດັບຄວາມໝັ້ນໃຈ, ເມື່ອໄດ້ຄະແນນຕໍ່າໃຫ້ແຈ້ງເຕືອນ "ຄຳຕອບນີ້ອາດມີຄວາມໜ້າເຊື່ອຖືຕໍ່າ, ກະລຸນາປຶກສາເອກະສານຕົ້ນສະບັບ".

3. ຖືຄວາມຖືກຕ້ອງເປັນວັດຖຸແຫ່ງການປັບປຸງຢ່າງຕໍ່ເນື່ອງ, ບໍ່ແມ່ນເປົ້າໝາຍຄັ້ງດຽວ

ສ້າງ ສາຍທໍ່ປະເມີນຜົນ: ດຶງເອົາຊຸດຄຳຖາມທີ່ຕິດປ້າຍກຳກັບໂດຍມະນຸດເປັນປະຈຳ, ປະເມີນອັດຕາການຕີເອກະສານຄືນ ແລະ ຄວາມຊື່ສັດໃນການສ້າງໂດຍອັດຕະໂນມັດ.
ໃຊ້ເຄື່ອງມືເຊັ່ນ RAGAS, TruLens ເພື່ອປະເມີນຢ່າງເປັນລະບົບ, ບໍ່ແມ່ນອາໄສສອງສາມກໍລະນີ.
ປັບປຸງຢ່າງຕໍ່ເນື່ອງຕາມ bad case: ວິທີການແຍກ, ພາລາມິເຕີຕົວດຶງຂໍ້ມູນ, ໂມເດວຈັດອັນດັບຄືນ, ຄຳແນະນຳ.

4. ແຍກລະຫວ່າງ "ຄວາມຜິດພາດຂອງລະບົບ" ແລະ "ມາດຕະຖານຂອງມະນຸດບໍ່ສອດຄ່ອງ"

ບາງຄັ້ງຄຳຕອບທີ່ລະບົບໃຫ້ບໍ່ກົງກັບຄວາມຄາດຫວັງຂອງຜູ້ໃຊ້, ແຕ່ຕາມຂໍ້ມູນໃນຖານຄວາມຮູ້ແລ້ວມັນຖືກຕ້ອງ (ເພາະຖານຄວາມຮູ້ມີຂໍ້ຈຳກັດ ຫຼື ການໂຕ້ແຍ້ງ).
ເມື່ອນັ້ນຕ້ອງກຳນົດ: ຄວາມຖືກຕ້ອງອີງຕາມ "ຂໍ້ເທັດຈິງໃນຖານຄວາມຮູ້" ຫຼື "ຂໍ້ເທັດຈິງທີ່ຍອມຮັບໂດຍທົ່ວໄປພາຍນອກ"?

ສະຫຼຸບສຸດທ້າຍ

ຄວາມຖືກຕ້ອງຂອງລະບົບຕອບຄຳຖາມຄວາມຮູ້ບໍ່ແມ່ນຕົວຊີ້ວັດເຕັມຄະແນນທີ່ຄົງທີ່, ແຕ່ແມ່ນຄ່າຄວາມສາມາດລວມທີ່ສະແດງໃຫ້ເຫັນ 'ການຄຸ້ມຄອງຄວາມຮູ້ + ຄວາມແມ່ນຍໍາໃນການດຶງ + ຄວາມຊື່ສັດໃນການສ້າງ + ຄວາມສາມາດໃນການປະຕິເສດ'. ເມື່ອເບິ່ງມັນ, ທັງຕ້ອງຮູ້ຢ່າງມີເຫດຜົນວ່າເຕັກໂນໂລຊີປະຈຸບັນບໍ່ສາມາດເຮັດໃຫ້ສົມບູນໄດ້, ແລະ ຍັງຕ້ອງຜ່ານການອອກແບບເຊັ່ນ: ການຕິດຕາມແຫຼ່ງທີ່ມາ, ການຊີ້ບອກລະດັບຄວາມໝັ້ນໃຈ, ການຮ່ວມມືຄົນ-ເຄື່ອງ ເພື່ອໃຫ້ມີຄຸນຄ່າໃນທຸລະກິດ.