ชุดสัมภาษณ์ AI 10: Embedding ทำงานอะไรกันแน่? — จากแก่นแท้ทางเทคนิคสู่การตอบสัมภาษณ์

Embedding ทำงานอะไรกันแน่? — จากแก่นแท้ทางเทคนิคสู่การตอบสัมภาษณ์

๑. แก่นแท้ทางเทคนิค: หนึ่งประโยคชี้ให้เห็นแกนกลาง

งานหลักของ Embedding คือการแมปข้อมูลที่ไม่มีโครงสร้างและไม่ต่อเนื่อง (ข้อความ รูปภาพ ฯลฯ) ไปยังปริภูมิเวกเตอร์ที่มีความต่อเนื่องและมีมิติต่ำ ทำให้วัตถุที่มีความหมายใกล้เคียงกันในปริภูมินั้นอยู่ใกล้กัน
พูดง่ายๆ คือ สร้าง “ระบบพิกัดเชิงความหมาย” ให้คอมพิวเตอร์ แปล “ความหมายที่คลุมเครือ” ของมนุษย์เป็น “พิกัดตำแหน่ง” ที่คอมพิวเตอร์คำนวณได้

๒. ความเข้าใจโดยสัญชาตญาณ: แผนที่ความหมาย

ลองนึกภาพแผนที่สองมิติ (จริงๆ แล้ว embedding มักมีหลายร้อยมิติ แต่หลักการเหมือนกัน):

แมว → [0.92, 0.31, -0.45, …]
สุนัข → [0.88, 0.29, -0.42, …]
รถยนต์ → [0.15, -0.87, 0.53, …]

เวกเตอร์ของแมวและสุนัขอยู่ใกล้กันมาก ส่วนรถยนต์อยู่ไกลออกไป
Embedding ทำให้คอมพิวเตอร์ไม่มองคำเป็นสัญลักษณ์ที่โดดเดี่ยวอีกต่อไป แต่สามารถเปรียบเทียบข้อความตาม “ระยะห่างของความหมาย” ได้

๓. หลักการทางเทคนิค (แบบง่าย): มันเรียนรู้มาได้อย่างไร?

อาศัยสมมติฐานทางภาษาศาสตร์: “ความหมายของคำหนึ่ง ๆ ถูกกำหนดโดยบริบทรอบข้าง”

โดยการฝึกฝนบนคลังข้อความขนาดมหาศาล (เช่น Word2Vec, ชั้น Embedding ของ BERT) โมเดลจะปรับเวกเตอร์ของแต่ละคำอย่างต่อเนื่อง
ในที่สุด คำที่ปรากฏในบริบทที่คล้ายกันบ่อยๆ (แมวและสุนัขอยู่ในบริบท “สัตว์เลี้ยง” “ลูบ” “ให้อาหาร”) จะถูกดึงให้มาอยู่ในตำแหน่งที่ใกล้กัน
กระบวนการนี้ไม่ต้องการการติดฉลากด้วยมือ เป็นโครงสร้างทางเรขาคณิตที่เกิดขึ้นเองจากการใช้ภาษา

คุณสมบัติสำคัญ: ปริภูมิเวกเตอร์สามารถจับความสัมพันธ์เชิงอุปมาได้ เช่น ราชา - ชาย + หญิง ≈ ราชินี

๔. ในระบบ RAG, Embedding ทำอะไรบ้าง?

ตอนสร้างดัชนี: แปลงแต่ละบล็อกเอกสารเป็นเวกเตอร์ → เก็บลงฐานข้อมูลเวกเตอร์ → สร้าง “ที่อยู่เชิงความหมาย”
ตอนค้นหา: แปลงคำถามของผู้ใช้เป็นเวกเตอร์ในปริภูมิเดียวกัน → หาเวกเตอร์เอกสารที่ใกล้ที่สุดในฐานข้อมูล → ดึงข้อมูลส่วนที่เกี่ยวข้องทางความหมาย

ตัวอย่างผลลัพธ์:
ผู้ใช้ถาม “จะทำให้สุนัขเลี้ยงของฉันมีความสุขได้อย่างไร?” แม้ฐานความรู้จะมีแค่ “สุนัขต้องเดินเล่นทุกวัน ซึ่งดีต่อสุขภาพจิต” embedding ยังคงสามารถดึงข้อมูลได้สำเร็จ เพราะความใกล้เคียงทางความหมายของ “ความสุข/สุขภาพ/สุนัข” ทำได้ “จับความหมาย” ไม่ใช่ “จับคำตรง”

๕. กลยุทธ์การตอบสัมภาษณ์ (สุนทรพจน์สมบูรณ์ 2-3 นาที)

ด้านล่างนี้คือกรอบการตอบที่ออกแบบไว้ แสดงทั้งความลึกทางทฤษฎีและประสบการณ์โครงการ

【เปิดเรื่อง】

“งานหลักของ Embedding คือการแมปข้อมูลที่ไม่มีโครงสร้างและไม่ต่อเนื่องไปยังปริภูมิเวกเตอร์ที่มีความต่อเนื่องและมีมิติต่ำ ทำให้วัตถุที่มีความหมายใกล้เคียงกันในปริภูมินั้นอยู่ใกล้กัน พูดง่ายๆ คือสร้าง ‘ระบบพิกัดเชิงความหมาย’ ให้คอมพิวเตอร์”

【อธิบายหลักการ พร้อมกล่าวถึงคุณสมบัติคลาสสิก】

“การเข้ารหัสแบบ one-hot แบบดั้งเดิมไม่มีความคิดเรื่องระยะห่างระหว่างคำ แต่ embedding เรียนรู้จากคลังข้อมูลจำนวนมากผ่านโครงข่ายประสาทเทียม — ‘ความหมายของคำถูกกำหนดโดยบริบทของมัน’ ในที่สุดแต่ละคำ/ประโยคจะถูกแสดงเป็นเวกเตอร์หนาแน่น และค่าโคไซน์ของมุมระหว่างเวกเตอร์สามารถวัดความคล้ายคลึงทางความหมายได้โดยตรง แม้กระทั่งจับความสัมพันธ์เชิงอุปมา เช่น ราชา - ชาย + หญิง ≈ ราชินี”

【เชื่อมโยงประสบการณ์โครงการ — จุดสำคัญ】

“ในระบบ RAG ถามตอบความรู้ ที่ฉันทำก่อนหน้านี้ ฉันใช้ embedding โดยตรง ตอนนั้นฉันเลือก text-embedding-3-small ตัดเอกสารภายในบริษัทเป็นบล็อกละ 500 ตัวอักษร แปลงแต่ละบล็อกเป็นเวกเตอร์เก็บใน Qdrant
ครั้งหนึ่งผู้ใช้ถาม ‘จะขอลาพักร้อนได้อย่างไร’ การค้นหาด้วยคำหลักไม่พบเพราะเอกสารเขียนว่า ‘ขั้นตอนการขอลาพัก’ แต่ embedding สามารถแมป ‘ลาพักร้อน’ และ ‘ลาพัก’ ไปยังตำแหน่งใกล้กัน และดึงข้อมูลย่อหน้าที่ถูกต้องได้สำเร็จ
ฉันยังเจอหลุมพราง: ตอนแรกใช้ embedding ทั่วไป ประสิทธิภาพกับข้อกำหนดทางกฎหมายแย่มาก ต่อมาเปลี่ยนเป็น BGE-large ที่ปรับแต่งเฉพาะด้าน อัตราการค้นหา命中เพิ่มขึ้นจาก 72% เป็น 89% ดังนั้นการเลือกโมเดล embedding ส่งผลอย่างมากต่องานปลายน้ำ”

【เพิ่มความคิดเชิงลึก แสดงศักยภาพระดับอาวุโส】

“อีกอย่างที่ฉันอยากเสริม: embedding โดยพื้นฐานคือ การบีบอัดความหมายแบบสูญเสีย — มันทิ้งข้อมูลผิวเผิน เช่น ลำดับคำ ไวยากรณ์ เก็บแค่ ‘ใจความสำคัญ’ ดังนั้นในสถานการณ์ที่ต้องการการจับคู่แม่นยำ (เช่น รุ่นผลิตภัณฑ์ ‘iPhone12’ vs ‘iPhone13’) การค้นหาเวกเตอร์ล้วนอาจไม่ดีเท่าคำหลัก ในทางปฏิบัติเรามักใช้การค้นหาแบบผสม (เวกเตอร์ + BM25) เพื่อเสริมกัน”

【ปิดท้าย】

“โดยสรุป embedding แก้ปัญหาพื้นฐานที่ว่า ‘ทำอย่างไรให้คอมพิวเตอร์คำนวณความคล้ายคลึงทางความหมายได้’ มันคือรากฐานสำคัญของ NLP และ RAG สมัยใหม่”

๖. คำถามต่อจากผู้สัมภาษณ์และวิธีรับมือ

คำถามต่อ	ประเด็นคำตอบ
“embedding ถูกฝึกมาอย่างไร?”	อธิบายสั้นๆ เกี่ยวกับ CBOW/Skip-gram ของ Word2Vec (ใช้บริบททำนายคำกลางหรือกลับกัน) หรือ contrastive learning สมัยใหม่ (SimCSE, Sentence-BERT) เน้นว่าการฝึกอาศัยสถิติการเกิดร่วมกัน
“จะประเมินคุณภาพของ embedding อย่างไร?”	ใช้อัตราการ命中, MRR ในงานเฉพาะ; benchmarks สาธารณะ เช่น MTEB ในทางปฏิบัติทดสอบ A/B ผลการค้นหา
“คุณใช้โมเดล embedding อะไรบ้าง? ข้อดีข้อเสีย?”	OpenAI สะดวกแต่แพง, BGE ภาษาไทยดี, M3E เบา, E5 หลายภาษา เลือกตามสถานการณ์
“เลือกมิติเวกเตอร์อย่างไร?”	มิติสูงแสดงความสามารถสูงแต่คำนวณ/เก็บแพง; มิติต่ำอาจ underfit นิยม 384/768/1536 ให้สมดุลด้วยการทดลอง

๗. ข้อควรระวัง (ใช้ในการสัมภาษณ์)

❌ อย่าแค่ท่อง “embedding คือการเปลี่ยนข้อความเป็นเวกเตอร์” — ตื้นเกินไป ผู้สัมภาษณ์จะถาม “แล้วไงต่อ?”
❌ อย่าใช้คณิตศาสตร์มากเกินไป (เริ่มพูดถึง Hilbert Space ทันที) ทำให้ดูเหมือนท่องจำมากกว่าปฏิบัติ
✅ ต้องเล่าว่าคุณใช้มันแก้ปัญหาอะไรด้วยตนเอง แม้เป็นแค่โปรเจกต์ในคอร์ส ตัวเลขเฉพาะ (เช่น เพิ่ม命中率 17%) มีพลังมากกว่าทฤษฎีสิบประโยค