AI ຊຸດສຳພາດ 9: ເຫັນແນວໃດກັບຄວາມຖືກຕ້ອງຂອງລະບົບຕອບຄຳຖາມຄວາມຮູ້?
ຄວາມຖືກຕ້ອງແມ່ນສາຍຊີວິດຫຼັກຂອງລະບົບຕອບຄຳຖາມຄວາມຮູ້, ໂດຍສະເພາະເມື່ອທ່ານພະຍາຍາມນຳໃຊ້ມັນໃນສະຖານະການທີ່ຮ້າຍແຮງ (ເຊັ່ນ: ການແພດ, ກົດໝາຍ, ການສະໜັບສະໜູນພາຍໃນອົງກອນ). ຄວາມຄິດເຫັນຂອງຂ້ອຍສາມາດສະຫຼຸບໄດ້ວ່າ: ຄວາມຖືກຕ້ອງແມ່ນແນວຄວາມຄິດທີ່ຫຼາຍມິຕິ, ບໍ່ສາມາດເບິ່ງພຽງແຕ່ຕົວເລກດຽວ, ແຕ່ຕ້ອງປະສົມປະສານກັບຄວາມສາມາດຂອງລະບົບ, ຄວາມຫຍຸ້ງຍາກຂອງວຽກ ແລະ ຄ່າໃຊ້ຈ່າຍໃນການທົນທານຕໍ່ຄວາມຜິດພາດ.
ຂ້າງລຸ່ມນີ້ແມ່ນການຂະຫຍາຍອອກເປັນສີ່ລະດັບ:
ສ່ວນທີໜຶ່ງ: ຄວາມຖືກຕ້ອງບໍ່ແມ່ນພຽງແຕ່ "ຖືກ/ຜິດ" ງ່າຍໆ
ຄວາມຖືກຕ້ອງຂອງບັນຫາການຈຳແນກແບບດັ້ງເດີມ (ເຊັ່ນ: ການຮັບຮູ້ຮູບພາບ) ແມ່ນຊັດເຈນ. ແຕ່ລະບົບຕອບຄຳຖາມຄວາມຮູ້ແຕກຕ່າງກັນ, ມິຕິຍ່ອຍທີ່ພົບເລື້ອຍລວມມີ:
| ມິຕິ | ຄວາມໝາຍ | ຕົວຢ່າງການປະເມີນ |
|---|---|---|
| ອັດຕາການຕີເອກະສານຄືນ | ລະບົບສາມາດດຶງເອົາບລັອກເອກະສານທີ່ມີຄຳຕອບທີ່ຖືກຕ້ອງຈາກຖານຄວາມຮູ້ໄດ້ຫຼືບໍ່? | ຜູ້ໃຊ້ຖາມ "ລາຍຮັບປີ 2024 ຂອງບໍລິສັດ A", ລະບົບສາມາດດຶງເອົາບລັອກທີ່ມີຂໍ້ມູນນັ້ນໃນບົດລາຍງານການເງິນໄດ້ບໍ? |
| ຄວາມຊື່ສັດໃນການສ້າງ | ຄຳຕອບທີ່ແບບຈຳລອງສ້າງຂຶ້ນແມ່ນ ອີງຕາມ ເນື້ອຫາທີ່ດຶງມາ ຫຼື ສ້າງຂຶ້ນເອງ? | ເອກະສານທີ່ດຶງມາບໍ່ໄດ້ກ່າວເຖິງ "ອັດຕາການເຕີບໂຕ", ແຕ່ແບບຈຳລອງເວົ້າວ່າ "ເຕີບໂຕ 5%" → ບໍ່ຊື່ສັດ |
| ຄວາມຖືກຕ້ອງຂອງຄຳຕອບ | ຄຳຕອບສຸດທ້າຍສອດຄ່ອງກັບຂໍ້ເທັດຈິງ (ຫຼື ຄຳຕອບອ້າງອີງ) ຫຼືບໍ່? | ຄຳຕອບທີ່ຖືກຕ້ອງແມ່ນ "4.2 ຕື້", ແບບຈຳລອງຜົນອອກ "4.2 ຕື້" ຫຼື "ປະມານ 4.2 ຕື້ຢວນ" ຖືວ່າຖືກຕ້ອງ |
| ອັດຕາການປະຕິເສດ | ເມື່ອຖານຄວາມຮູ້ບໍ່ມີຂໍ້ມູນທີ່ກ່ຽວຂ້ອງ, ລະບົບສາມາດເວົ້າວ່າ "ບໍ່ຮູ້" ແທນທີ່ຈະເດົາໄດ້ບໍ? | ເມື່ອການດຶງຂໍ້ມູນບໍ່ມີຫຼືລະດັບຄວາມໝັ້ນໃຈຕໍ່າ, ຜົນອອກແມ່ນ "ຂໍອະໄພ, ບໍ່ພົບຂໍ້ມູນທີ່ກ່ຽວຂ້ອງ" |
ລະບົບໜຶ່ງອາດມີອັດຕາການຕີເອກະສານຄືນສູງ (ສາມາດຊອກຫາວັກທີ່ກ່ຽວຂ້ອງໄດ້ສະເໝີ), ແຕ່ຄວາມຊື່ສັດໃນການສ້າງຕໍ່າ (ມັກເພີ່ມເຕີມ), ສຸດທ້າຍຄວາມຖືກຕ້ອງກໍຍັງບໍ່ດີ. ດັ່ງນັ້ນ, ການເບິ່ງຄວາມຖືກຕ້ອງຕ້ອງກຳນົດກ່ອນວ່າທ່ານວັດແທກຈຸດໃດ.
ສ່ວນທີສອງ: ພາຍໃຕ້ເຕັກໂນໂລຊີປະຈຸບັນ, ຄວາມຖືກຕ້ອງຂອງລະບົບ RAG ສາມາດເຖິງເທົ່າໃດ?
ບໍ່ມີຕົວເລກທີ່ເປັນເອກະພາບ, ແຕ່ສາມາດອ້າງອີງການຄົ້ນຄວ້າ ແລະ ການປະຕິບັດທີ່ເປີດເຜີຍ:
- ການຕອບຄຳຖາມແບບຂໍ້ເທັດຈິງງ່າຍໆ (ການກະໂດດດຽວ, ຄຳຕອບປະກົດໂດຍກົງໃນຂໍ້ມູນວັກດຽວ):
ອັດຕາການຕີເອກະສານຄືນສາມາດເຖິງ 90-98% (ຂຶ້ນກັບຄຸນນະພາບຖານຄວາມຮູ້ ແລະ ຕົວດຶງຂໍ້ມູນ), ຄວາມຊື່ສັດໃນການສ້າງພາຍໃຕ້ການອອກແບບຄຳແນະນຳທີ່ດີໃຫ້ເຖິງ 95%+, ຄວາມຖືກຕ້ອງລວມສາມາດຢູ່ລະຫວ່າງ 85-95%. - ການອະມະນວິທະຍາແບບຫຼາຍຂັ້ນ (ຕ້ອງການລວມຂໍ້ມູນຈາກວັກສອງວັກຂຶ້ນໄປ):
ອັດຕາການຕີເອກະສານຄືນຫຼຸດລົງຫຼາຍ 50-70%, ຄວາມຖືກຕ້ອງຂອງຄຳຕອບອາດມີພຽງ 40-60%. ນີ້ແມ່ນຈຸດຍາກຫຼັກຂອງ RAG ໃນປະຈຸບັນ. - ໂດເມນເປີດ + ຖານຄວາມຮູ້ທີ່ມີສິ່ງລົບກວນ (ເຊັ່ນ: ເວັບໄຊຕ່າງໆຈຳນວນຫຼາຍ):
ຄວາມຖືກຕ້ອງຈະຫຼຸດລົງຢ່າງຫຼວງຫຼາຍ, ເພາະການດຶງຂໍ້ມູນອາດເອົາເສັ້ນປະສາດມາ, ແບບຈຳລອງມັກຖືກລົບກວນ.
ສະຫຼຸບ: ໃນສະພາບແວດລ້ອມທີ່ຄວບຄຸມ (ສະອາດ, ມີໂຄງສ້າງ, ຂະໜາດເອກະສານເໝາະສົມ), RAG ສາມາດເຮັດໄດ້ຫຼາຍກວ່າ 90% ຄວາມຖືກຕ້ອງ; ແຕ່ໃນສະຖານະການທີ່ຊັບຊ້ອນ, ເປີດ, ຕ້ອງການການອະມະນຫຼາຍຂັ້ນ, ຄວາມຖືກຕ້ອງມັກບໍ່ເປັນທີ່ພໍໃຈ, ຕ້ອງການການເພີ່ມປະສິດທິພາບຫຼາຍ.
ສ່ວນທີສາມ: ປັດໃຈຫຼັກທີ່ສົ່ງຜົນກະທົບຕໍ່ຄວາມຖືກຕ້ອງ
ຖ້າທ່ານພົບວ່າຄວາມຖືກຕ້ອງຂອງລະບົບ RAG ຂອງທ່ານບໍ່ດີ, ສາມາດກວດສອບຈາກສີ່ຂັ້ນຕອນຕໍ່ໄປນີ້:
- ຖານຄວາມຮູ້ຕົວເອງ
- ຂໍ້ມູນລ້າສະໄໝ, ບໍ່ຄົບຖ້ວນ, ຫຼື ມີຂໍ້ຜິດພາດບໍ?
-
ເອກະສານວຸ່ນວາຍ (ເຊັ່ນ: ເອກະສານສະແກນທີ່ບໍ່ໄດ້ OCR, ຕາຕະລາງຖືກແຍກກາຍເປັນຂໍ້ຄວາມທີ່ບໍ່ສອດຄ່ອງ) ບໍ?
-
ການແຍກ ແລະ ດັດຊະນີ
- ບລັອກຂໍ້ຄວາມຖືກຕັດສັ້ນເກີນໄປ → ສູນເສຍບໍລິບົດ; ຍາວເກີນໄປ → ເພີ່ມສິ່ງລົບກວນ.
-
ໂມເດວຝັງຂໍ້ຄວາມ (embedding model) ເໝາະສົມກັບໂດເໝນຂອງທ່ານບໍ (ໂມເດວທົ່ວໄປອາດມີປະສິດທິພາບບໍ່ດີໃນຄຳສັບທາງກົດໝາຍ)?
-
ຍຸດທະສາດການດຶງຂໍ້ມູນ
- ໃຊ້ພຽງແຕ່ການດຶງຂໍ້ມູນແບບເວັກເຕີ ອາດລະເລີຍຄຳສຳຄັນທີ່ແນ່ນອນ (ເຊັ່ນ: ລຸ້ນສິນຄ້າ).
-
ບໍ່ໄດ້ຈັດອັນດັບຄືນ (re-rank) ເຮັດໃຫ້ຜົນໄດ້ຮັບແຖວໜ້າມີເນື້ອຫາທີ່ບໍ່ກ່ຽວຂ້ອງ.
-
ຂັ້ນຕອນການສ້າງ
- ຄຳແນະນຳ (prompt) ກຳນົດຢ່າງຊັດເຈນວ່າ "ຕອບໂດຍອີງຕາມຂໍ້ມູນທີ່ໃຫ້ໄວ້ເທົ່ານັ້ນ, ຖ້າບໍ່ພໍພຽງໃຫ້ປະຕິເສດ" ບໍ?
- ຄວາມສາມາດຂອງແບບຈຳລອງພຽງພໍບໍ (ແບບຈຳລອງນ້ອຍມັກລະເລີຍລາຍລະອຽດໃນບໍລິບົດຍາວ)?
ຄວາມເຂົ້າໃຈຜິດທີ່ພົບເລື້ອຍ: ການໃສ່ໂທດຄວາມຖືກຕ້ອງຕໍ່າໃສ່ຄວາມສາມາດ LLM ທີ່ບໍ່ພຽງພໍ, ແຕ່ໃນຄວາມຈິງບັນຫາສ່ວນໃຫຍ່ມາຈາກ "ການດຶງຂໍ້ມູນ" ແລະ "ການອອກແບບຄຳແນະນຳ".
ສ່ວນທີສີ່: ວິທີການ "ເບິ່ງ" ຄວາມຖືກຕ້ອງຢ່າງຖືກຕ້ອງ — ທັດສະນະທີ່ສຳຄັນໃນການປະຕິບັດ
1. ກຳນົດເກນ ແລະ ຄວາມຄາດຫວັງທີ່ເໝາະສົມ
- ສຳລັບໂດເໝນທີ່ມີຄວາມສ່ຽງສູງ (ການວິນິດໄສທາງການແພດ, ຄຳແນະນຳທາງກົດໝາຍ), ຄວາມຖືກຕ້ອງ 90% ກໍຍັງບໍ່ພໍ, ຕ້ອງນຳໃຊ້ການທົບທວນຂອງມະນຸດ ຫຼື ການກວດສອບຫຼາຍຊັ້ນ.
- ສຳລັບສະຖານະການທີ່ມີຄວາມສ່ຽງຕໍ່າ (ການບໍລິການລູກຄ້າ, ການຊອກຫາຄວາມຮູ້ພາຍໃນ), ຄວາມຖືກຕ້ອງ 80% ບວກກັບການຕອບ "ບໍ່ຮູ້" ທີ່ເປັນມິດ, ອາດສາມາດເພີ່ມປະສິດທິພາບໄດ້ຢ່າງຫຼວງຫຼາຍ.
2. ຢ່າໄລ່ຕາມ 100%, ໄລ່ຕາມ "ຄວາມຖືກຕ້ອງທີ່ສາມາດກວດສອບໄດ້"
- ໃຫ້ລະບົບ ຕິດແຫຼ່ງທີ່ມາໂດຍອັດຕະໂນມັດ (ອ້າງອີງບົດຄວາມໃດ, ວັກໃດ).
ຜູ້ໃຊ້ສາມາດເບິ່ງຕົ້ນສະບັບເພື່ອກວດສອບເອງ, ເຖິງແມ່ນຄຳຕອບຈະຜິດບາງຄັ້ງ, ຄວາມໂປ່ງໃສກໍສາມາດສ້າງຄວາມໄວ້ໃຈໄດ້. - ເພີ່ມ ຄະແນນລະດັບຄວາມໝັ້ນໃຈ, ເມື່ອໄດ້ຄະແນນຕໍ່າໃຫ້ແຈ້ງເຕືອນ "ຄຳຕອບນີ້ອາດມີຄວາມໜ້າເຊື່ອຖືຕໍ່າ, ກະລຸນາປຶກສາເອກະສານຕົ້ນສະບັບ".
3. ຖືຄວາມຖືກຕ້ອງເປັນວັດຖຸແຫ່ງການປັບປຸງຢ່າງຕໍ່ເນື່ອງ, ບໍ່ແມ່ນເປົ້າໝາຍຄັ້ງດຽວ
- ສ້າງ ສາຍທໍ່ປະເມີນຜົນ: ດຶງເອົາຊຸດຄຳຖາມທີ່ຕິດປ້າຍກຳກັບໂດຍມະນຸດເປັນປະຈຳ, ປະເມີນອັດຕາການຕີເອກະສານຄືນ ແລະ ຄວາມຊື່ສັດໃນການສ້າງໂດຍອັດຕະໂນມັດ.
- ໃຊ້ເຄື່ອງມືເຊັ່ນ RAGAS, TruLens ເພື່ອປະເມີນຢ່າງເປັນລະບົບ, ບໍ່ແມ່ນອາໄສສອງສາມກໍລະນີ.
- ປັບປຸງຢ່າງຕໍ່ເນື່ອງຕາມ bad case: ວິທີການແຍກ, ພາລາມິເຕີຕົວດຶງຂໍ້ມູນ, ໂມເດວຈັດອັນດັບຄືນ, ຄຳແນະນຳ.
4. ແຍກລະຫວ່າງ "ຄວາມຜິດພາດຂອງລະບົບ" ແລະ "ມາດຕະຖານຂອງມະນຸດບໍ່ສອດຄ່ອງ"
- ບາງຄັ້ງຄຳຕອບທີ່ລະບົບໃຫ້ບໍ່ກົງກັບຄວາມຄາດຫວັງຂອງຜູ້ໃຊ້, ແຕ່ຕາມຂໍ້ມູນໃນຖານຄວາມຮູ້ແລ້ວມັນຖືກຕ້ອງ (ເພາະຖານຄວາມຮູ້ມີຂໍ້ຈຳກັດ ຫຼື ການໂຕ້ແຍ້ງ).
ເມື່ອນັ້ນຕ້ອງກຳນົດ: ຄວາມຖືກຕ້ອງອີງຕາມ "ຂໍ້ເທັດຈິງໃນຖານຄວາມຮູ້" ຫຼື "ຂໍ້ເທັດຈິງທີ່ຍອມຮັບໂດຍທົ່ວໄປພາຍນອກ"?
ສະຫຼຸບສຸດທ້າຍ
ຄວາມຖືກຕ້ອງຂອງລະບົບຕອບຄຳຖາມຄວາມຮູ້ບໍ່ແມ່ນຕົວຊີ້ວັດເຕັມຄະແນນທີ່ຄົງທີ່, ແຕ່ແມ່ນຄ່າຄວາມສາມາດລວມທີ່ສະແດງໃຫ້ເຫັນ 'ການຄຸ້ມຄອງຄວາມຮູ້ + ຄວາມແມ່ນຍໍາໃນການດຶງ + ຄວາມຊື່ສັດໃນການສ້າງ + ຄວາມສາມາດໃນການປະຕິເສດ'. ເມື່ອເບິ່ງມັນ, ທັງຕ້ອງຮູ້ຢ່າງມີເຫດຜົນວ່າເຕັກໂນໂລຊີປະຈຸບັນບໍ່ສາມາດເຮັດໃຫ້ສົມບູນໄດ້, ແລະ ຍັງຕ້ອງຜ່ານການອອກແບບເຊັ່ນ: ການຕິດຕາມແຫຼ່ງທີ່ມາ, ການຊີ້ບອກລະດັບຄວາມໝັ້ນໃຈ, ການຮ່ວມມືຄົນ-ເຄື່ອງ ເພື່ອໃຫ້ມີຄຸນຄ່າໃນທຸລະກິດ.
评论
暂无已展示的评论。
发表评论(匿名)