AI ຊຸດສຳພາດ 10: Embedding ເຮັດຫຍັງແທ້? — ຈາກເນື້ອໃນທາງເທັກນິກເຖິງການຕອບສຳພາດ
Embedding ເຮັດຫຍັງແທ້? — ຈາກເນື້ອໃນທາງເທັກນິກເຖິງການຕອບສຳພາດ
ຫນຶ່ງ, ເນື້ອໃນທາງເທັກນິກ: ຫນຶ່ງປະໂຫຍກຈັບໃຈສຳຄັນ
ວຽກຫຼັກຂອງ Embedding ຄືການສ້າງແຜນທີ່ຂໍ້ມູນທີ່ບໍ່ຕໍ່ເນື່ອງ (ຕົວໜັງສື, ຮູບພາບ) ໄປສູ່ພື້ນທີ່ vector ຕິດຕໍ່ກັນ ແລະ ຕ່ຳ, ເພື່ອໃຫ້ວັດຖຸທີ່ມີຄວາມໝາຍຄ້າຍຄືກັນຢູ່ໃກ້ກັນໃນພື້ນທີ່ນັ້ນ.
ເວົ້າງ່າຍໆ, ມັນຄື ການສ້າງ “ລະບົບຈຸດພິກັດທາງຄວາມໝາຍ” ໃຫ້ຄອມພິວເຕີ, ແປຄວາມໝາຍທີ່ບໍ່ແນ່ນອນຂອງມະນຸດເປັນ “ພິກັດທີ່ຕັ້ງ” ທີ່ຄອມພິວເຕີສາມາດຄິດໄລ່ໄດ້.
ສອງ, ຄວາມເຂົ້າໃຈໂດຍກົງ: ແຜນທີ່ຄວາມໝາຍ
ຈິນຕະນາການແຜນທີ່ສອງມິຕິ (ຕົວຈິງ embedding ມັກຫຼາຍຮ້ອຍມິຕິ, ແຕ່ຫຼັກການຄືກັນ):
- ແມວ →
[0.92, 0.31, -0.45, …] - ໝາ →
[0.88, 0.29, -0.42, …] - ລົດ →
[0.15, -0.87, 0.53, …]
vector ຂອງແມວ ແລະ ໝາ ໃກ້ກັນຫຼາຍ, ສ່ວນລົດຢູ່ໄກ.
Embedding ເຮັດໃຫ້ຄອມພິວເຕີບໍ່ເບິ່ງຄຳສັບເປັນສັນຍາລັກໂດດດ່ຽວ, ແຕ່ສາມາດປຽບທຽບຂໍ້ຄວາມຕາມ “ຄວາມໃກ້ຄຽງທາງຄວາມໝາຍ”.
ສາມ, ຫຼັກການທາງເທັກນິກ (ສະບັບຫຍໍ້): ມັນຮຽນຮູ້ໄດ້ແນວໃດ?
ອີງໃສ່ສົມມຸດຖານທາງພາສາສາດ: “ຄວາມໝາຍຂອງຄຳສັບໜຶ່ງ ຖືກກຳນົດໂດຍບໍລິບົດອ້ອມຂ້າງ.”
- ໂດຍການຝຶກອົບຮົມກັບຂໍ້ຄວາມຈຳນວນຫຼາຍ (ເຊັ່ນ Word2Vec, ຊັ້ນ embedding ຂອງ BERT), ແບບຈຳລອງປັບ vector ຂອງແຕ່ລະຄຳຢ່າງຕໍ່ເນື່ອງ.
- ສຸດທ້າຍ, ຄຳສັບທີ່ມັກປາກົດໃນບໍລິບົດຄ້າຍຄືກັນ (ແມວ ແລະ ໝາ ໃນບໍລິບົດ “ສັດລ້ຽງ”, “ລູບຄຳ”, “ໃຫ້ອາຫານ”) ຈະຖືກດຶງໄປຢູ່ໃກ້ກັນ.
- ຂະບວນການນີ້ບໍ່ຕ້ອງການການຕິດປ້າຍດ້ວຍມື, ແຕ່ເປັນໂຄງສ້າງເລຂາຄະນິດທີ່ເກີດຂຶ້ນໂດຍອັດຕະໂນມັດຈາກການໃຊ້ພາສາ.
ຄຸນສົມບັດສຳຄັນ: ພື້ນທີ່ vector ສາມາດຈັບຄວາມສຳພັນແບບອຸປະມາໄດ້, ເຊັ່ນ ກະສັດ − ຜູ້ຊາຍ + ຜູ້ຍິງ ≈ ລາຊິນີ.
ສີ່, ໃນລະບົບ RAG, Embedding ເຮັດວຽກອັນໃດແດ່?
- ເວລາສ້າງດັດຊະນີ: ປ່ຽນແຕ່ລະຊິ້ນສ່ວນເອກະສານ (chunk) ເປັນ vector → ເກັບໄວ້ໃນຖານຂໍ້ມູນ vector → ສ້າງ “ທີ່ຢູ່ທາງຄວາມໝາຍ”.
- ເວລາສອບຖາມ: ປ່ຽນຄຳຖາມຂອງຜູ້ໃຊ້ເປັນ vector ໃນພື້ນທີ່ດຽວກັນ → ຊອກຫາ vector ເອກະສານທີ່ໃກ້ທີ່ສຸດ → ດຶງເອົາສ່ວນຄວາມຮູ້ທີ່ກ່ຽວຂ້ອງທາງຄວາມໝາຍ.
ຕົວຢ່າງ: ຜູ້ໃຊ້ຖາມ “ຈະເຮັດແນວໃດໃຫ້ໝາຂອງຂ້ອຍມີຄວາມສຸກ?”, ເຖິງແມ່ນວ່າຖານຄວາມຮູ້ມີພຽງ “ໝາຕ້ອງການຍ່າງປະຈຳວັນ, ເຊິ່ງຊ່ວຍສຸຂະພາບຈິດ”, embedding ກໍ່ຍັງສາມາດດຶງຂໍ້ມູນໄດ້ເນື່ອງຈາກ “ຄວາມສຸກ/ສຸຂະພາບ/ໝາ” ມີຄວາມໝາຍໃກ້ກັນ. ບັນລຸ “ຄວາມໝາຍ” ຫຼາຍກວ່າ “ຮູບແບບ”.
ຫ້າ, ຍຸດທະສາດການຕອບສຳພາດ (ບົດຄຳເວົ້າເຕັມ 2-3 ນາທີ)
ຂ້າງລຸ່ມນີ້ເປັນໂຄງຮ່າງການຕອບທີ່ຖືກອອກແບບ, ສາມາດສະແດງທັງຄວາມເລິກທາງທິດສະດີ ແລະ ປະສົບການໂຄງການ.
【ເປີດຕົວກຳນົດທິດທາງ】
“ວຽກຫຼັກຂອງ Embedding ຄືການສ້າງແຜນທີ່ຂໍ້ມູນທີ່ບໍ່ຕໍ່ເນື່ອງໄປສູ່ພື້ນທີ່ vector ຕິດຕໍ່ກັນ ແລະ ຕ່ຳ, ເພື່ອໃຫ້ວັດຖຸທີ່ມີຄວາມໝາຍຄ້າຍຄືກັນຢູ່ໃກ້ກັນ. ເວົ້າງ່າຍໆ, ຄືການສ້າງ ‘ລະບົບຈຸດພິກັດທາງຄວາມໝາຍ’ ໃຫ້ຄອມພິວເຕີ.”
【ອະທິບາຍຫຼັກການ, ກ່າວເຖິງຄຸນສົມບັດຄລາສສິກ】
“ການເຂົ້າລະຫັດ one-hot ແບບດັ້ງເດີມບໍ່ມີແນວຄິດໄລຍະຫ່າງລະຫວ່າງຄຳ, ແຕ່ embedding ຮຽນຮູ້ຈາກຂໍ້ມູນຈຳນວນຫຼາຍຜ່ານເຄືອຂ່າຍ neural — ‘ຄວາມໝາຍຂອງຄຳສັບໜຶ່ງ ຖືກກຳນົດໂດຍບໍລິບົດອ້ອມຂ້າງ’. ສຸດທ້າຍແຕ່ລະຄຳ/ປະໂຫຍກຖືກສະແດງເປັນ vector ແໜ້ນໜາ, ມຸມ cosine ຂອງ vector ສາມາດວັດຄວາມຄ້າຍຄືທາງຄວາມໝາຍ. ເຖິງຂັ້ນສາມາດຈັບຄວາມສຳພັນແບບອຸປະມາ, ເຊັ່ນ
ກະສັດ − ຜູ້ຊາຍ + ຜູ້ຍິງ ≈ ລາຊິນີ.”
【ປະສົບການໂຄງການ — ຈຸດສຳຄັນ】
“ໃນລະບົບ RAG ຕອບຄຳຖາມຄວາມຮູ້ທີ່ຂ້ອຍເຄີຍເຮັດ, ຂ້ອຍໃຊ້ embedding ໂດຍກົງ. ຕອນນັ້ນຂ້ອຍເລືອກ
text-embedding-3-small, ຕັດເອກະສານພາຍໃນບໍລິສັດເປັນຊິ້ນ 500 ຕົວອັກສອນ, ແປງແຕ່ລະຊິ້ນເປັນ vector ແລະ ເກັບໄວ້ໃນ Qdrant.
ຄັ້ງໜຶ່ງຜູ້ໃຊ້ຖາມ ‘ຈະຂໍລາພັກປະຈຳປີໄດ້ແນວໃດ’, ການຄົ້ນຫາດ້ວຍຄຳຫຼັກບໍ່ເຫັນ, ເພາະເອກະສານຂຽນວ່າ ‘ຂັ້ນຕອນການຍື່ນຂໍລາພັກ’. ແຕ່ embedding ສາມາດສ້າງແຜນທີ່ ‘ລາພັກປະຈຳປີ’ ແລະ ‘ລາພັກ’ ໃຫ້ຢູ່ໃນຕຳແໜ່ງໃກ້ກັນ, ສຳເລັດການດຶງຂໍ້ມູນ.
ຂ້ອຍຍັງເຄີຍເຈິປັນຫາ: ຕອນໃຊ້ embedding ທົ່ວໄປ, ຜົນໄດ້ຮັບກັບຂໍ້ກຳນົດກົດໝາຍບໍ່ດີ, ຕໍ່ມາປ່ຽນເປັນBGE-largeທີ່ປັບລະອຽດຕາມໂດເມນ, ອັດຕາການດຶງຂໍ້ມູນຖືກເພີ່ມຂຶ້ນຈາກ 72% ເປັນ 89%. ສະນັ້ນການເລືອກແບບຈຳລອງ embedding ມີຜົນກະທົບຫຼາຍຕໍ່ວຽກງານປາຍທາງ.”
【ເພີ່ມການຄິດເລິກ, ສະແດງທ່າແຮງ senior】
“ນອກນັ້ນຂ້ອຍຢາກເພີ່ມອີກຈຸດໜຶ່ງ: embedding ໂດຍພື້ນຖານແລ້ວແມ່ນ ການບີບອັດຄວາມໝາຍແບບສູນເສຍຂໍ້ມູນ — ມັນປະຖິ້ມຂໍ້ມູນຜິວໜ້າເຊັ່ນລຳດັບຄຳ, ໂຄງສ້າງປະໂຫຍກ, ຮັກສາໄວ້ແຕ່ ‘ຄວາມໝາຍຫຍໍ້’. ສະນັ້ນໃນບາງສະຖານະການທີ່ຕ້ອງການຈັບຄູ່ແນ່ນອນ (ເຊັ່ນ ລຸ້ນສິນຄ້າ ‘iPhone12’ ທຽບກັບ ‘iPhone13’), ການຄົ້ນຫາດ້ວຍ vector ຢ່າງດຽວອາດບໍ່ດີເທົ່າຄຳຫຼັກ. ໃນວຽກຈິງເຮົາມັກໃຊ້ການຄົ້ນຫາປະສົມ (vector + BM25) ເພື່ອເສີມກັນ.”
【ປິດທ້າຍ】
“ສະຫຼຸບແລ້ວ, embedding ແກ້ໄຂບັນຫາພື້ນຖານ ‘ເຮັດແນວໃດໃຫ້ຄອມພິວເຕີຄິດໄລ່ຄວາມຄ້າຍຄືທາງຄວາມໝາຍ’. ມັນເປັນໜຶ່ງໃນພື້ນຖານຂອງ NLP ສະໄໝໃໝ່ ແລະ RAG.”
ຫົກ, ຄຳຖາມຕໍ່ຂອງຜູ້ສຳພາດ ແລະ ວິທີຕອບ
| ຄຳຖາມຕໍ່ | ຈຸດຕອບ |
|---|---|
| “embedding ຝຶກອົບຮົມມາແນວໃດ?” | ອະທິບາຍສັ້ນໆກ່ຽວກັບ CBOW/Skip-gram ຂອງ Word2Vec (ໃຊ້ບໍລິບົດທຳນາຍຄຳກາງ ຫຼື ກົງກັນຂ້າມ), ຫຼື ການຮຽນຮູ້ປຽບທຽບສະໄໝໃໝ່ (SimCSE, Sentence-BERT). ເນັ້ນວ່າໂດຍພື້ນຖານການຝຶກແມ່ນໃຊ້ສະຖິຕິຮ່ວມກັນ. |
| “ຈະປະເມີນຄຸນນະພາບຂອງ embedding ແນວໃດ?” | ໃຊ້ອັດຕາການດຶງຂໍ້ມູນຖືກ, MRR ໃນວຽກສະເພາະ; benchmarks ສາທາລະນະເຊັ່ນ MTEB. ໃນພາກປະຕິບັດສາມາດ A/B ທົດສອບຜົນການຄົ້ນຫາ. |
| “ເຈົ້າໃຊ້ແບບຈຳລອງ embedding ອັນໃດແດ່? ຂໍ້ດີຂໍ້ເສຍ?” | OpenAI ສະດວກແຕ່ແພງ, BGE ເຮັດວຽກພາສາຈີນໄດ້ດີ, M3E ເບົາ, E5 ຫຼາຍພາສາ. ເລືອກຕາມສະຖານະການ. |
| “ມິຕິຂອງ vector ເລືອກແນວໃດ?” | ມິຕິສູງ: ຄວາມສາມາດໃນການສະແດງຜົນແຮງແຕ່ແພງ; ມິຕິຕ່ຳ: ອາດ underfit. ທີ່ໃຊ້ທົ່ວໄປ: 384/768/1536, ຕ້ອງທົດລອງຊັ່ງນຳ້ໜັກ. |
ເຈັດ, ຄຳເຕືອນເພື່ອຫຼີກລ່ຽງບັນຫາ (ເໝາະສຳລັບການສຳພາດ)
- ❌ ຢ່າທ່ອງພຽງ “embedding ແມ່ນການປ່ຽນຂໍ້ຄວາມເປັນ vector” — ຕື້ນເກີນໄປ, ຜູ້ສຳພາດຈະຖາມຕໍ່ “ແລ້ວຫຍັງຕໍ່?”
- ❌ ຢ່າເວົ້າແບບຄະນິດສາດເກີນໄປ (ເລີ່ມຕົ້ນດ້ວຍ Hilbert space) ເພາະອາດດູຄືທ່ອງປື້ມຫຼາຍກວ່າປະຕິບັດ.
- ✅ ຕ້ອງເວົ້າວ່າເຈົ້າໃຊ້ມັນແກ້ໄຂບັນຫາອັນໃດແທ້ໆ, ເຖິງແມ່ນວ່າພຽງໂຄງການຮຽນ. ຕົວເລກຈິງ (ເຊັ່ນ ເພີ່ມອັດຕາການດຶງຂໍ້ມູນ 17%) ມີນ້ຳໜັກກວ່າທິດສະດີ 10 ປະໂຫຍກ.
评论
暂无已展示的评论。
发表评论(匿名)