AI ຊຸດສຳພາດ 10: Embedding ເຮັດຫຍັງແທ້? — ຈາກເນື້ອໃນທາງເທັກນິກເຖິງການຕອບສຳພາດ

Embedding ເຮັດຫຍັງແທ້? — ຈາກເນື້ອໃນທາງເທັກນິກເຖິງການຕອບສຳພາດ

ຫນຶ່ງ, ເນື້ອໃນທາງເທັກນິກ: ຫນຶ່ງປະໂຫຍກຈັບໃຈສຳຄັນ

ວຽກຫຼັກຂອງ Embedding ຄືການສ້າງແຜນທີ່ຂໍ້ມູນທີ່ບໍ່ຕໍ່ເນື່ອງ (ຕົວໜັງສື, ຮູບພາບ) ໄປສູ່ພື້ນທີ່ vector ຕິດຕໍ່ກັນ ແລະ ຕ່ຳ, ເພື່ອໃຫ້ວັດຖຸທີ່ມີຄວາມໝາຍຄ້າຍຄືກັນຢູ່ໃກ້ກັນໃນພື້ນທີ່ນັ້ນ.
ເວົ້າງ່າຍໆ, ມັນຄື ການສ້າງ “ລະບົບຈຸດພິກັດທາງຄວາມໝາຍ” ໃຫ້ຄອມພິວເຕີ, ແປຄວາມໝາຍທີ່ບໍ່ແນ່ນອນຂອງມະນຸດເປັນ “ພິກັດທີ່ຕັ້ງ” ທີ່ຄອມພິວເຕີສາມາດຄິດໄລ່ໄດ້.

ສອງ, ຄວາມເຂົ້າໃຈໂດຍກົງ: ແຜນທີ່ຄວາມໝາຍ

ຈິນຕະນາການແຜນທີ່ສອງມິຕິ (ຕົວຈິງ embedding ມັກຫຼາຍຮ້ອຍມິຕິ, ແຕ່ຫຼັກການຄືກັນ):

ແມວ → [0.92, 0.31, -0.45, …]
ໝາ → [0.88, 0.29, -0.42, …]
ລົດ → [0.15, -0.87, 0.53, …]

vector ຂອງແມວ ແລະ ໝາ ໃກ້ກັນຫຼາຍ, ສ່ວນລົດຢູ່ໄກ.
Embedding ເຮັດໃຫ້ຄອມພິວເຕີບໍ່ເບິ່ງຄຳສັບເປັນສັນຍາລັກໂດດດ່ຽວ, ແຕ່ສາມາດປຽບທຽບຂໍ້ຄວາມຕາມ “ຄວາມໃກ້ຄຽງທາງຄວາມໝາຍ”.

ສາມ, ຫຼັກການທາງເທັກນິກ (ສະບັບຫຍໍ້): ມັນຮຽນຮູ້ໄດ້ແນວໃດ?

ອີງໃສ່ສົມມຸດຖານທາງພາສາສາດ: “ຄວາມໝາຍຂອງຄຳສັບໜຶ່ງ ຖືກກຳນົດໂດຍບໍລິບົດອ້ອມຂ້າງ.”

ໂດຍການຝຶກອົບຮົມກັບຂໍ້ຄວາມຈຳນວນຫຼາຍ (ເຊັ່ນ Word2Vec, ຊັ້ນ embedding ຂອງ BERT), ແບບຈຳລອງປັບ vector ຂອງແຕ່ລະຄຳຢ່າງຕໍ່ເນື່ອງ.
ສຸດທ້າຍ, ຄຳສັບທີ່ມັກປາກົດໃນບໍລິບົດຄ້າຍຄືກັນ (ແມວ ແລະ ໝາ ໃນບໍລິບົດ “ສັດລ້ຽງ”, “ລູບຄຳ”, “ໃຫ້ອາຫານ”) ຈະຖືກດຶງໄປຢູ່ໃກ້ກັນ.
ຂະບວນການນີ້ບໍ່ຕ້ອງການການຕິດປ້າຍດ້ວຍມື, ແຕ່ເປັນໂຄງສ້າງເລຂາຄະນິດທີ່ເກີດຂຶ້ນໂດຍອັດຕະໂນມັດຈາກການໃຊ້ພາສາ.

ຄຸນສົມບັດສຳຄັນ: ພື້ນທີ່ vector ສາມາດຈັບຄວາມສຳພັນແບບອຸປະມາໄດ້, ເຊັ່ນ ກະສັດ − ຜູ້ຊາຍ + ຜູ້ຍິງ ≈ ລາຊິນີ.

ສີ່, ໃນລະບົບ RAG, Embedding ເຮັດວຽກອັນໃດແດ່?

ເວລາສ້າງດັດຊະນີ: ປ່ຽນແຕ່ລະຊິ້ນສ່ວນເອກະສານ (chunk) ເປັນ vector → ເກັບໄວ້ໃນຖານຂໍ້ມູນ vector → ສ້າງ “ທີ່ຢູ່ທາງຄວາມໝາຍ”.
ເວລາສອບຖາມ: ປ່ຽນຄຳຖາມຂອງຜູ້ໃຊ້ເປັນ vector ໃນພື້ນທີ່ດຽວກັນ → ຊອກຫາ vector ເອກະສານທີ່ໃກ້ທີ່ສຸດ → ດຶງເອົາສ່ວນຄວາມຮູ້ທີ່ກ່ຽວຂ້ອງທາງຄວາມໝາຍ.

ຕົວຢ່າງ: ຜູ້ໃຊ້ຖາມ “ຈະເຮັດແນວໃດໃຫ້ໝາຂອງຂ້ອຍມີຄວາມສຸກ?”, ເຖິງແມ່ນວ່າຖານຄວາມຮູ້ມີພຽງ “ໝາຕ້ອງການຍ່າງປະຈຳວັນ, ເຊິ່ງຊ່ວຍສຸຂະພາບຈິດ”, embedding ກໍ່ຍັງສາມາດດຶງຂໍ້ມູນໄດ້ເນື່ອງຈາກ “ຄວາມສຸກ/ສຸຂະພາບ/ໝາ” ມີຄວາມໝາຍໃກ້ກັນ. ບັນລຸ “ຄວາມໝາຍ” ຫຼາຍກວ່າ “ຮູບແບບ”.

ຫ້າ, ຍຸດທະສາດການຕອບສຳພາດ (ບົດຄຳເວົ້າເຕັມ 2-3 ນາທີ)

ຂ້າງລຸ່ມນີ້ເປັນໂຄງຮ່າງການຕອບທີ່ຖືກອອກແບບ, ສາມາດສະແດງທັງຄວາມເລິກທາງທິດສະດີ ແລະ ປະສົບການໂຄງການ.

【ເປີດຕົວກຳນົດທິດທາງ】

“ວຽກຫຼັກຂອງ Embedding ຄືການສ້າງແຜນທີ່ຂໍ້ມູນທີ່ບໍ່ຕໍ່ເນື່ອງໄປສູ່ພື້ນທີ່ vector ຕິດຕໍ່ກັນ ແລະ ຕ່ຳ, ເພື່ອໃຫ້ວັດຖຸທີ່ມີຄວາມໝາຍຄ້າຍຄືກັນຢູ່ໃກ້ກັນ. ເວົ້າງ່າຍໆ, ຄືການສ້າງ ‘ລະບົບຈຸດພິກັດທາງຄວາມໝາຍ’ ໃຫ້ຄອມພິວເຕີ.”

【ອະທິບາຍຫຼັກການ, ກ່າວເຖິງຄຸນສົມບັດຄລາສສິກ】

“ການເຂົ້າລະຫັດ one-hot ແບບດັ້ງເດີມບໍ່ມີແນວຄິດໄລຍະຫ່າງລະຫວ່າງຄຳ, ແຕ່ embedding ຮຽນຮູ້ຈາກຂໍ້ມູນຈຳນວນຫຼາຍຜ່ານເຄືອຂ່າຍ neural — ‘ຄວາມໝາຍຂອງຄຳສັບໜຶ່ງ ຖືກກຳນົດໂດຍບໍລິບົດອ້ອມຂ້າງ’. ສຸດທ້າຍແຕ່ລະຄຳ/ປະໂຫຍກຖືກສະແດງເປັນ vector ແໜ້ນໜາ, ມຸມ cosine ຂອງ vector ສາມາດວັດຄວາມຄ້າຍຄືທາງຄວາມໝາຍ. ເຖິງຂັ້ນສາມາດຈັບຄວາມສຳພັນແບບອຸປະມາ, ເຊັ່ນ ກະສັດ − ຜູ້ຊາຍ + ຜູ້ຍິງ ≈ ລາຊິນີ.”

【ປະສົບການໂຄງການ — ຈຸດສຳຄັນ】

“ໃນລະບົບ RAG ຕອບຄຳຖາມຄວາມຮູ້ທີ່ຂ້ອຍເຄີຍເຮັດ, ຂ້ອຍໃຊ້ embedding ໂດຍກົງ. ຕອນນັ້ນຂ້ອຍເລືອກ text-embedding-3-small, ຕັດເອກະສານພາຍໃນບໍລິສັດເປັນຊິ້ນ 500 ຕົວອັກສອນ, ແປງແຕ່ລະຊິ້ນເປັນ vector ແລະ ເກັບໄວ້ໃນ Qdrant.
ຄັ້ງໜຶ່ງຜູ້ໃຊ້ຖາມ ‘ຈະຂໍລາພັກປະຈຳປີໄດ້ແນວໃດ’, ການຄົ້ນຫາດ້ວຍຄຳຫຼັກບໍ່ເຫັນ, ເພາະເອກະສານຂຽນວ່າ ‘ຂັ້ນຕອນການຍື່ນຂໍລາພັກ’. ແຕ່ embedding ສາມາດສ້າງແຜນທີ່ ‘ລາພັກປະຈຳປີ’ ແລະ ‘ລາພັກ’ ໃຫ້ຢູ່ໃນຕຳແໜ່ງໃກ້ກັນ, ສຳເລັດການດຶງຂໍ້ມູນ.
ຂ້ອຍຍັງເຄີຍເຈິປັນຫາ: ຕອນໃຊ້ embedding ທົ່ວໄປ, ຜົນໄດ້ຮັບກັບຂໍ້ກຳນົດກົດໝາຍບໍ່ດີ, ຕໍ່ມາປ່ຽນເປັນ BGE-large ທີ່ປັບລະອຽດຕາມໂດເມນ, ອັດຕາການດຶງຂໍ້ມູນຖືກເພີ່ມຂຶ້ນຈາກ 72% ເປັນ 89%. ສະນັ້ນການເລືອກແບບຈຳລອງ embedding ມີຜົນກະທົບຫຼາຍຕໍ່ວຽກງານປາຍທາງ.”

【ເພີ່ມການຄິດເລິກ, ສະແດງທ່າແຮງ senior】

“ນອກນັ້ນຂ້ອຍຢາກເພີ່ມອີກຈຸດໜຶ່ງ: embedding ໂດຍພື້ນຖານແລ້ວແມ່ນ ການບີບອັດຄວາມໝາຍແບບສູນເສຍຂໍ້ມູນ — ມັນປະຖິ້ມຂໍ້ມູນຜິວໜ້າເຊັ່ນລຳດັບຄຳ, ໂຄງສ້າງປະໂຫຍກ, ຮັກສາໄວ້ແຕ່ ‘ຄວາມໝາຍຫຍໍ້’. ສະນັ້ນໃນບາງສະຖານະການທີ່ຕ້ອງການຈັບຄູ່ແນ່ນອນ (ເຊັ່ນ ລຸ້ນສິນຄ້າ ‘iPhone12’ ທຽບກັບ ‘iPhone13’), ການຄົ້ນຫາດ້ວຍ vector ຢ່າງດຽວອາດບໍ່ດີເທົ່າຄຳຫຼັກ. ໃນວຽກຈິງເຮົາມັກໃຊ້ການຄົ້ນຫາປະສົມ (vector + BM25) ເພື່ອເສີມກັນ.”

【ປິດທ້າຍ】

“ສະຫຼຸບແລ້ວ, embedding ແກ້ໄຂບັນຫາພື້ນຖານ ‘ເຮັດແນວໃດໃຫ້ຄອມພິວເຕີຄິດໄລ່ຄວາມຄ້າຍຄືທາງຄວາມໝາຍ’. ມັນເປັນໜຶ່ງໃນພື້ນຖານຂອງ NLP ສະໄໝໃໝ່ ແລະ RAG.”

ຫົກ, ຄຳຖາມຕໍ່ຂອງຜູ້ສຳພາດ ແລະ ວິທີຕອບ

ຄຳຖາມຕໍ່	ຈຸດຕອບ
“embedding ຝຶກອົບຮົມມາແນວໃດ?”	ອະທິບາຍສັ້ນໆກ່ຽວກັບ CBOW/Skip-gram ຂອງ Word2Vec (ໃຊ້ບໍລິບົດທຳນາຍຄຳກາງ ຫຼື ກົງກັນຂ້າມ), ຫຼື ການຮຽນຮູ້ປຽບທຽບສະໄໝໃໝ່ (SimCSE, Sentence-BERT). ເນັ້ນວ່າໂດຍພື້ນຖານການຝຶກແມ່ນໃຊ້ສະຖິຕິຮ່ວມກັນ.
“ຈະປະເມີນຄຸນນະພາບຂອງ embedding ແນວໃດ?”	ໃຊ້ອັດຕາການດຶງຂໍ້ມູນຖືກ, MRR ໃນວຽກສະເພາະ; benchmarks ສາທາລະນະເຊັ່ນ MTEB. ໃນພາກປະຕິບັດສາມາດ A/B ທົດສອບຜົນການຄົ້ນຫາ.
“ເຈົ້າໃຊ້ແບບຈຳລອງ embedding ອັນໃດແດ່? ຂໍ້ດີຂໍ້ເສຍ?”	OpenAI ສະດວກແຕ່ແພງ, BGE ເຮັດວຽກພາສາຈີນໄດ້ດີ, M3E ເບົາ, E5 ຫຼາຍພາສາ. ເລືອກຕາມສະຖານະການ.
“ມິຕິຂອງ vector ເລືອກແນວໃດ?”	ມິຕິສູງ: ຄວາມສາມາດໃນການສະແດງຜົນແຮງແຕ່ແພງ; ມິຕິຕ່ຳ: ອາດ underfit. ທີ່ໃຊ້ທົ່ວໄປ: 384/768/1536, ຕ້ອງທົດລອງຊັ່ງນຳ້ໜັກ.

ເຈັດ, ຄຳເຕືອນເພື່ອຫຼີກລ່ຽງບັນຫາ (ເໝາະສຳລັບການສຳພາດ)

❌ ຢ່າທ່ອງພຽງ “embedding ແມ່ນການປ່ຽນຂໍ້ຄວາມເປັນ vector” — ຕື້ນເກີນໄປ, ຜູ້ສຳພາດຈະຖາມຕໍ່ “ແລ້ວຫຍັງຕໍ່?”
❌ ຢ່າເວົ້າແບບຄະນິດສາດເກີນໄປ (ເລີ່ມຕົ້ນດ້ວຍ Hilbert space) ເພາະອາດດູຄືທ່ອງປື້ມຫຼາຍກວ່າປະຕິບັດ.
✅ ຕ້ອງເວົ້າວ່າເຈົ້າໃຊ້ມັນແກ້ໄຂບັນຫາອັນໃດແທ້ໆ, ເຖິງແມ່ນວ່າພຽງໂຄງການຮຽນ. ຕົວເລກຈິງ (ເຊັ່ນ ເພີ່ມອັດຕາການດຶງຂໍ້ມູນ 17%) ມີນ້ຳໜັກກວ່າທິດສະດີ 10 ປະໂຫຍກ.