AI ซีรีส์สัมภาษณ์ 9: จะมองอัตราความแม่นยำของระบบตอบคำถามความรู้อย่างไร?

อัตราความแม่นยำคือเส้นเลือดหลักของระบบตอบคำถามความรู้ โดยเฉพาะอย่างยิ่งเมื่อคุณพยายามนำไปใช้ในสถานการณ์ที่จริงจัง (เช่น การแพทย์ กฎหมาย การสนับสนุนภายในองค์กร) มุมมองของฉันสามารถสรุปได้ว่า อัตราความแม่นยำเป็นแนวคิดหลายมิติ ไม่ใช่แค่ตัวเลขเดียว ต้องพิจารณาร่วมกับความสามารถของระบบ ความยากของงาน และต้นทุนของความผิดพลาด

ด้านล่างขยายความจากสี่ระดับ:

หนึ่ง อัตราความแม่นยำไม่ใช่แค่ "ตอบถูก/ตอบผิด" ง่ายๆ

สำหรับปัญหาการจำแนกแบบดั้งเดิม (เช่น การรู้จำภาพ) อัตราความแม่นยำชัดเจน แต่ระบบตอบคำถามความรู้แตกต่าง มีมิติย่อยที่พบบ่อย:

มิติ	ความหมาย	ตัวอย่างการประเมิน
อัตราการเข้าถึงการค้นคืน	ระบบสามารถดึงบล็อกเอกสารที่มีคำตอบที่ถูกต้องจากฐานความรู้ได้หรือไม่?	ผู้ใช้ถาม "รายได้ของบริษัท A ปี 2024" ระบบสามารถค้นคืนส่วนของรายงานการเงินที่มีข้อมูลนั้นได้หรือไม่?
ความเที่ยงตรงในการสร้าง	คำตอบที่สร้างโดยโมเดล อิงตาม เนื้อหาที่ค้นคืนอย่างเคร่งครัด หรือไม่ใช่การแต่งขึ้นเอง?	เอกสารที่ค้นคืนไม่ได้กล่าวถึง "อัตราการเติบโต" แต่โมเดลพูดว่า "เติบโต 5%" → ไม่เที่ยงตรง
ความถูกต้องของคำตอบ	คำตอบสุดท้ายสอดคล้องกับข้อเท็จจริง (หรือคำตอบอ้างอิง) หรือไม่?	คำตอบที่ถูกต้องคือ "4.2 พันล้าน" โมเดลส่งออก "4.2 พันล้าน" หรือ "ประมาณ 4.2 พันล้านหยวน" ก็ถือว่าถูกต้อง
อัตราการปฏิเสธตอบ	เมื่อฐานความรู้ไม่มีข้อมูลที่เกี่ยวข้อง ระบบสามารถพูดว่า "ไม่ทราบ" อย่างจริงจัง แทนที่จะเดาสุ่ม?	เมื่อการค้นคืนว่างเปล่าหรือความเชื่อมั่นต่ำ ส่งออก "ขออภัย ไม่พบข้อมูลที่เกี่ยวข้อง"

ระบบอาจมีอัตราการเข้าถึงการค้นคืนสูงมาก (สามารถหาตอนที่เกี่ยวข้องได้เสมอ) แต่ความเที่ยงตรงในการสร้างต่ำมาก (มักแต่งเติมเสมอ) ทำให้อัตราความแม่นยำสุดท้ายยังคงแย่ ดังนั้น การมองอัตราความแม่นยำต้องกำหนดก่อนว่าคุณกำลังวัดในขั้นตอนใด

สอง ภายใต้เทคโนโลยีปัจจุบัน อัตราความแม่นยำของระบบ RAG อยู่ที่เท่าไหร่?

ไม่มีตัวเลขที่แน่นอน แต่สามารถอ้างอิงจากงานวิจัยและการปฏิบัติที่เปิดเผย:

คำถามข้อเท็จจริงแบบเดี่ยว (กระโดดครั้งเดียว คำตอบปรากฏในเอกสารหนึ่งส่วน):
อัตราการเข้าถึงการค้นคืนสูงถึง 90-98% (ขึ้นอยู่กับคุณภาพฐานความรู้และตัวค้นคืน) ความเที่ยงตรงในการสร้างภายใต้พรอมต์ที่ออกแบบอย่างดีสูงถึง 95%+ อัตราความแม่นยำรวมอยู่ในช่วง 85-95%
การอนุมานแบบหลายกระโดด (ต้องรวมข้อมูลจากมากกว่าสองส่วนที่แตกต่างกัน):
อัตราความแม่นยำในการค้นคืนลดลงอย่างรวดเร็วเหลือ 50-70% ความถูกต้องของคำตอบที่สร้างอาจมีเพียง 40-60% นี่คือจุดยากหลักของ RAG ในปัจจุบัน
โดเมนเปิด + ฐานความรู้ที่มีสัญญาณรบกวน (เช่น เว็บเพจจำนวนมาก):
อัตราความแม่นยำจะลดลงอย่างมีนัยสำคัญ เพราะการค้นคืนอาจนำสัญญาณรบกวนเข้ามา โมเดลถูกรบกวนได้ง่าย

สรุป: ในสภาพแวดล้อมที่ควบคุม (ข้อมูลสะอาด มีโครงสร้าง ขนาดเอกสารเหมาะสม) RAG สามารถทำอัตราความแม่นยำมากกว่า 90% แต่ในสถานการณ์ที่ซับซ้อน เปิดกว้าง และต้องการการอนุมานหลายขั้นตอน อัตราความแม่นยำมักไม่เป็นที่น่าพอใจ ต้องการการปรับแต่งอย่างมาก

สาม ปัจจัยหลักที่ส่งผลต่ออัตราความแม่นยำ

หากคุณพบว่าระบบ RAG ของคุณมีอัตราความแม่นยำไม่ดี โดยทั่วไปสามารถตรวจสอบจากสี่ขั้นตอนนี้:

ตัวฐานความรู้เอง
ข้อมูลล้าสมัย ไม่สมบูรณ์ หรือมีข้อผิดพลาดหรือไม่?
เอกสารรกหรือไม่ (เช่น สแกนที่ไม่ได้ OCR ตารางถูกแยกเป็นรหัสที่ไม่เป็นระเบียบ)?
การแบ่งส่วนและการทำดัชนี
ตัดบล็อกข้อความสั้นเกินไป → สูญเสียบริบท; ยาวเกินไป → เติมสัญญาณรบกวน
โมเดลฝังตัวเหมาะสมกับโดเมนของคุณหรือไม่ (โมเดลทั่วไปอาจทำงานไม่ดีกับคำศัพท์ทางกฎหมาย)?
กลยุทธ์การค้นคืน
การใช้การค้นคืนเวกเตอร์เพียงอย่างเดียวอาจละเลยคำสำคัญที่แน่นอน (เช่น รุ่นผลิตภัณฑ์)
ไม่มีการจัดลำดับใหม่ ทำให้ผลลัพธ์ในหน้าแรกมีเนื้อหาที่ไม่เกี่ยวข้องปนเข้ามา
ขั้นตอนการสร้าง
พรอมต์ระบุชัดเจนหรือไม่ว่า "ตอบตามเอกสารที่ให้เท่านั้น ถ้าไม่พอให้ปฏิเสธ"?
ความสามารถของโมเดลเพียงพอหรือไม่ (โมเดลเล็กมักมองข้ามรายละเอียดในบริบทที่ยาว)?

ความเข้าใจผิดที่พบบ่อย: โทษว่าอัตราความแม่นยำต่ำเกิดจากความสามารถของ LLM ไม่เพียงพอ แต่จริงๆ ปัญหาส่วนใหญ่อยู่ที่ "การค้นคืน" และ "การออกแบบพรอมต์"

สี่ วิธี "มอง" อัตราความแม่นยำอย่างถูกต้อง – ทัศนคติสำคัญหลายประการในทางปฏิบัติ

1. กำหนดเกณฑ์พื้นฐานและความคาดหวังที่สมเหตุสมผล

สำหรับสาขาที่มีความเสี่ยงสูง (การวินิจฉัยทางการแพทย์ คำแนะนำทางกฎหมาย) อัตราความแม่นยำ 90% ก็ยังไม่เพียงพอ ต้องนำการตรวจสอบด้วยมนุษย์หรือการยืนยันหลายชั้นเข้ามา
สำหรับสถานการณ์ที่มีความเสี่ยงต่ำ (การสนับสนุนลูกค้าขั้นพื้นฐาน การค้นหาความรู้ภายใน) อัตราความแม่นยำ 80% พร้อมการตอบกลับ "ไม่ทราบ" ที่เป็นมิตร อาจช่วยเพิ่มประสิทธิภาพได้อย่างมาก

2. อย่า追求 100% ให้追求 "อัตราความแม่นยำที่ตรวจสอบได้"

ให้ระบบ แนบแหล่งที่มาอ้างอิงโดยอัตโนมัติ (อ้างถึงบทความใด ส่วนใด)
ผู้ใช้สามารถดูเอกสารต้นฉบับเพื่อตรวจสอบด้วยตนเอง แม้ว่าคำตอบจะผิดเป็นครั้งคราว ความโปร่งใสก็ช่วยสร้างความไว้วางใจ
เพิ่ม คะแนนความเชื่อมั่น เมื่อคะแนนต่ำ ให้แจ้งโดยอัตโนมัติว่า "คำตอบนี้มีความน่าเชื่อถือต่ำ แนะนำให้ตรวจสอบเอกสารต้นฉบับ"

3. มองอัตราความแม่นยำเป็นวัตถุที่ต้องปรับปรุงอย่างต่อเนื่อง ไม่ใช่เป้าหมายครั้งเดียว

สร้าง สายการประเมิน: ดึงชุดคำถามที่标注โดยมนุษย์เป็นระยะ ประเมินอัตราการเข้าถึงการค้นคืนและความเที่ยงตรงในการสร้างโดยอัตโนมัติ
ใช้เครื่องมือเช่น RAGAS, TruLens สำหรับการประเมินอย่างเป็นระบบ แทนที่จะใช้เพียงไม่กี่กรณีตัวอย่าง
ปรับเปลี่ยนตาม Bad Case อย่างต่อเนื่อง: วิธีการแบ่งส่วน พารามิเตอร์ตัวค้นคืน โมเดลจัดลำดับใหม่ พรอมต์

4. แยกแยะระหว่าง "ข้อผิดพลาดของระบบ" และ "ความไม่สอดคล้องกับมาตรฐานของมนุษย์"

บางครั้งคำตอบที่ระบบให้แตกต่างจากที่ผู้ใช้คาดหวัง แต่ตามเอกสารในฐานความรู้แล้วถูกต้อง (เพราะฐานความรู้มีข้อจำกัดหรือข้อโต้แย้ง)
ในกรณีนี้ต้องกำหนด: อัตราความแม่นยำยึดตาม "ข้อเท็จจริงในฐานความรู้" หรือ "ข้อเท็จจริงที่ยอมรับภายนอก"?

สรุปท้าย

อัตราความแม่นยำของระบบตอบคำถามความรู้ไม่ใช่ตัวชี้วัดที่หยุดนิ่ง แต่เป็นค่าความสามารถรวมที่สะท้อนถึง "ความครอบคลุมความรู้ + ความแม่นยำในการค้นคืน + ความเที่ยงตรงในการสร้าง + ความสามารถในการปฏิเสธตอบ" ในการมองอัตราความแม่นยำ ต้องตระหนักอย่างมีเหตุผลว่าเทคโนโลยีปัจจุบันไม่สามารถสมบูรณ์แบบได้ แต่ยังสามารถใช้การออกแบบ เช่น การอ้างอิงแหล่งที่มา การแจ้งความเชื่อมั่น การร่วมมือระหว่างมนุษย์และเครื่องจักร เพื่อให้เกิดคุณค่าในทางธุรกิจ