Siri Temuduga AI 9: Bagaimana Melihat Ketepatan Sistem Soal Jawab Pengetahuan?

Ketepatan adalah nadi utama sistem soal jawab pengetahuan, terutamanya apabila cuba mengaplikasikannya dalam senario serius (seperti perubatan, undang-undang, sokongan dalaman perusahaan). Pandangan saya boleh diringkaskan sebagai: Ketepatan adalah konsep pelbagai dimensi, tidak boleh hanya melihat satu angka, tetapi perlu dinilai secara menyeluruh berdasarkan keupayaan sistem, kesukaran tugas, dan kos toleransi kesalahan.

Berikut dihuraikan dari empat peringkat:

I. Ketepatan Bukan Sekadar "Betul/Salah"

Ketepatan masalah klasifikasi tradisional (seperti pengecaman imej) adalah jelas. Tetapi sistem soal jawab pengetahuan berbeza, dimensi perincian biasa termasuk:

Dimensi	Maksud	Contoh Penilaian
Kadar capaian carian	Adakah sistem dapat mencari blok dokumen yang mengandungi jawapan betul dari pangkalan pengetahuan?	Pengguna bertanya "Hasil pendapatan Syarikat A tahun 2024", adakah sistem dapat mencari perenggan laporan kewangan yang mengandungi data tersebut?
Kesetiaan penjanaan	Adakah jawapan yang dihasilkan model berdasarkan sepenuhnya kandungan yang dicari, bukan ciptaan sendiri?	Bahan carian tidak menyebut "kadar pertumbuhan", tetapi model berkata "meningkat 5%" → tidak setia
Ketepatan jawapan	Adakah jawapan akhir konsisten dengan fakta (atau jawapan rujukan)?	Jawapan betul ialah "42 bilion", output model "42 bilion" atau "kira-kira 42 bilion RMB" boleh dianggap betul
Kadar penolakan	Apabila tiada maklumat berkaitan dalam pangkalan pengetahuan, adakah sistem boleh secara aktif mengatakan "tidak tahu", bukannya meneka?	Apabila carian kosong atau keyakinan rendah, output "Maaf, tiada maklumat berkaitan dijumpai"

Satu sistem mungkin mempunyai kadar capaian carian yang tinggi (sentiasa dapat mencari perenggan berkaitan), tetapi kesetiaan penjanaan yang rendah (sentiasa menokok tambah), akhirnya ketepatan masih buruk. Oleh itu, melihat ketepatan perlu jelas dahulu peringkat mana yang diukur.

II. Di Bawah Tahap Teknologi Semasa, Berapakah Ketepatan Sistem RAG?

Tiada angka seragam, tetapi boleh merujuk beberapa penyelidikan dan amalan awam:

Soal jawab fakta mudah (lompatan tunggal, jawapan terus muncul dalam satu bahan):
Kadar capaian carian boleh mencapai 90-98% (bergantung pada kualiti pangkalan pengetahuan dan pengcari), kesetiaan penjanaan di bawah reka bentuk gesaan yang teliti boleh mencapai 95%+, ketepatan menyeluruh boleh antara 85-95%.
Penaakulan berbilang lompatan (perlu menggabungkan maklumat dari dua atau lebih bahan berbeza):
Ketepatan carian menurun mendadak kepada 50-70%, ketepatan jawapan mungkin hanya 40-60%. Ini adalah cabaran utama RAG pada masa kini.
Domain terbuka + pangkalan pengetahuan bising (seperti laman web besar):
Ketepatan akan menurun dengan ketara kerana carian mungkin memperkenalkan hingar, model mudah terganggu.

Kesimpulan: Dalam persekitaran terkawal (bersih, berstruktur, saiz dokumen sesuai), RAG boleh mencapai ketepatan melebihi 90%; tetapi dalam senario kompleks, terbuka, dan memerlukan penaakulan pelbagai langkah, ketepatan sering tidak memuaskan dan memerlukan banyak pengoptimuman.

III. Faktor Utama yang Mempengaruhi Ketepatan

Jika anda mendapati ketepatan sistem RAG anda tidak ideal, biasanya boleh diperiksa dari empat peringkat berikut:

Pangkalan Pengetahuan Itu Sendiri
Adakah data lapuk, tidak lengkap, atau bahkan salah?
Adakah dokumen bercelaru (contohnya imbasan belum OCR, jadual pecah menjadi kod rawak)?
Pemotongan dan Pengindeksan
Potongan blok teks terlalu pendek → kehilangan konteks; terlalu panjang → mencampurkan hingar.
Adakah model pembenaman sesuai untuk domain anda (model umum mungkin prestasi buruk pada istilah undang-undang)?
Strategi Carian
Hanya menggunakan carian vektor mungkin mengabaikan kata kunci tepat (seperti model produk).
Tidak melakukan penyusunan semula menyebabkan hasil teratas bercampur dengan kandungan tidak berkaitan.
Peringkat Penjanaan
Adakah gesaan dengan jelas meminta "hanya jawab berdasarkan bahan yang disediakan, jika tidak cukup tolak"?
Adakah keupayaan model mencukupi (model kecil mudah terlepas butiran dalam konteks panjang)?

Satu salah tanggapan biasa: Menyalahkan ketepatan rendah terus pada kelemahan LLM, sedangkan sebenarnya kebanyakan masalah terletak pada "carian" dan "reka bentuk gesaan".

IV. Cara "Melihat" Ketepatan dengan Betul – Beberapa Sikap Penting dalam Amalan

1. Tetapkan Penanda Aras dan Jangkaan yang Realistik

Untuk domain berisiko tinggi (diagnosis perubatan, nasihat undang-undang), ketepatan 90% masih tidak mencukupi, mesti memperkenalkan semakan manusia atau pengesahan berganda.
Untuk senario berisiko rendah (sokongan pelanggan asas, carian pengetahuan dalaman), ketepatan 80% ditambah respons "tidak tahu" yang mesra, mungkin sudah dapat meningkatkan kecekapan dengan ketara.

2. Jangan Kejar 100%, Kejar "Ketepatan Boleh Disahkan"

Biarkan sistem secara automatik melampirkan sumber rujukan (rujuk artikel mana, perenggan mana).
Pengguna boleh melihat teks asal untuk mengesahkan sendiri, walaupun jawapan kadang-kadang salah, ketelusan boleh membina kepercayaan.
Tambah skor keyakinan, apabila rendah secara aktif memberi amaran "Jawapan ini kurang boleh dipercayai, sila rujuk dokumen asal".

3. Jadikan Ketepatan Objek Pengoptimuman Berterusan, Bukan Matlamat Sekali

Bina saluran paip penilaian: Secara berkala ekstrak satu set soalan berlabel manusia, nilai secara automatik kadar capaian carian dan kesetiaan penjanaan.
Gunakan alat seperti RAGAS, TruLens untuk penilaian sistematik, bukan hanya berdasarkan beberapa kes.
Berdasarkan kes buruk, terus laraskan: kaedah pemotongan, parameter pencari, model penyusunan semula, gesaan.

4. Bezakan "Kesalahan Sistem" dan "Ketidakselarasan Piawaian Manusia"

Kadangkala jawapan yang diberikan sistem berbeza daripada jangkaan pengguna, tetapi berdasarkan bahan dalam pangkalan pengetahuan ia sebenarnya betul (kerana pangkalan pengetahuan mempunyai had atau kontroversi).
Pada ketika ini perlu ditakrifkan: adakah ketepatan berdasarkan "fakta pangkalan pengetahuan" atau "fakta umum luar"?

Kesimpulan Akhir

Ketepatan sistem soal jawab pengetahuan bukanlah penunjuk skor penuh statik, tetapi nilai keupayaan komprehensif yang mencerminkan "liputan pengetahuan + ketepatan carian + kesetiaan penjanaan + keupayaan menolak". Apabila melihatnya, kita perlu sedar secara rasional bahawa teknologi semasa tidak boleh mencapai kesempurnaan, dan melalui reka bentuk seperti petikan sumber, petunjuk keyakinan, kerjasama manusia-mesin, kita dapat merealisasikan nilai dalam perniagaan.