Wawancara Seri AI 9: Bagaimana Memandang Akurasi Sistem Tanya Jawab Pengetahuan?

Akurasi adalah garis hidup inti sistem tanya jawab pengetahuan, terutama ketika Anda mencoba menerapkannya dalam skenario serius (seperti medis, hukum, dukungan internal perusahaan). Pandangan saya dapat diringkas sebagai: Akurasi adalah konsep multidimensi, tidak bisa hanya melihat satu angka, tetapi harus dievaluasi secara komprehensif dengan menggabungkan kemampuan sistem, kesulitan tugas, dan biaya toleransi kesalahan.

Berikut ini diuraikan dari empat tingkatan:

I. Akurasi Bukan Sekadar "Benar/Salah"

Akurasi masalah klasifikasi tradisional (seperti pengenalan gambar) jelas. Namun sistem tanya jawab pengetahuan berbeda, dimensi umum yang dirinci meliputi:

Dimensi	Makna	Contoh Evaluasi
Tingkat Ketepatan Pengambilan	Apakah sistem dapat mengambil blok dokumen yang berisi jawaban benar dari basis pengetahuan?	Pengguna bertanya "Pendapatan Perusahaan A tahun 2024", apakah sistem dapat mengambil bagian laporan keuangan yang berisi data tersebut?
Kesetiaan Generasi	Apakah jawaban yang dihasilkan model secara ketat berdasarkan konten yang diambil, bukan dibuat sendiri?	Data yang diambil tidak menyebutkan "tingkat pertumbuhan", tetapi model mengatakan "meningkat 5%" → tidak setia
Kebenaran Jawaban	Apakah jawaban akhir konsisten dengan fakta (atau jawaban referensi)?	Jawaban benar adalah "4,2 miliar", model menghasilkan "4,2 miliar" atau "sekitar 4,2 miliar yuan" dapat dianggap benar
Tingkat Penolakan	Ketika tidak ada informasi terkait dalam basis pengetahuan, apakah sistem dapat secara aktif mengatakan "tidak tahu", bukan menebak?	Ketika pengambilan kosong atau keyakinan rendah, output "Maaf, tidak ditemukan informasi terkait"

Suatu sistem mungkin memiliki tingkat ketepatan pengambilan yang tinggi (selalu dapat menemukan paragraf terkait), tetapi kesetiaan generasi rendah (selalu menambahkan bumbu), sehingga akurasi akhir tetap buruk. Oleh karena itu, melihat akurasi harus terlebih dahulu menentukan tautan mana yang Anda ukur.

II. Di Bawah Level Teknologi Saat Ini, Berapa Akurasi Sistem RAG?

Tidak ada angka seragam, tetapi dapat merujuk pada beberapa penelitian dan praktik publik:

Tanya jawab fakta sederhana (lompatan tunggal, jawaban langsung muncul dalam satu materi):
Tingkat ketepatan pengambilan dapat mencapai 90-98% (tergantung kualitas basis pengetahuan dan retriever), kesetiaan generasi di bawah petunjuk yang dirancang dengan baik dapat mencapai 95%+, akurasi komprehensif dapat antara 85-95%.
Penalaran multi-lompatan (perlu menggabungkan informasi dari dua atau lebih materi berbeda):
Akurasi pengambilan turun drastis menjadi 50-70%, kebenaran jawaban yang dihasilkan mungkin hanya 40-60%. Ini adalah kesulitan utama RAG saat ini.
Domain terbuka + basis pengetahuan berisik (seperti halaman web masif):
Akurasi akan menurun signifikan karena pengambilan dapat memperkenalkan noise, model mudah terganggu.

Kesimpulan: Dalam lingkungan terkendali (bersih, terstruktur, granularitas dokumen sesuai), RAG dapat mencapai akurasi di atas 90%; tetapi dalam skenario kompleks, terbuka, dan memerlukan penalaran multi-langkah, akurasi sering kali mengecewakan dan memerlukan banyak optimasi.

III. Faktor Inti yang Mempengaruhi Akurasi

Jika Anda menemukan akurasi sistem RAG tidak ideal, biasanya dapat diperiksa dari empat tautan berikut:

Basis Pengetahuan Itu Sendiri
Apakah data usang, tidak lengkap, atau bahkan salah?
Apakah dokumen kacau (misalnya hasil pemindaian belum OCR, tabel terpecah menjadi kode acak)?
Pemotongan dan Indeks
Potongan teks terlalu pendek → kehilangan konteks; terlalu panjang → dicampur noise.
Apakah model embedding cocok untuk domain Anda (model umum mungkin buruk dalam istilah hukum)?
Strategi Pengambilan
Hanya menggunakan pengambilan vektor mungkin mengabaikan kata kunci tepat (seperti model produk).
Tidak melakukan reranking menyebabkan hasil terdepan tercampur konten tidak relevan.
Tautan Generasi
Apakah prompt secara eksplisit meminta "hanya menjawab berdasarkan materi yang diberikan, jika tidak cukup tolak"?
Apakah kemampuan model cukup (model kecil mudah mengabaikan detail dalam konteks panjang)?

Kesalahpahaman umum: Menyalahkan akurasi rendah langsung pada kurangnya kemampuan LLM, padahal sebagian besar masalah terletak pada "pengambilan" dan "desain prompt".

IV. Bagaimana "Memandang" Akurasi dengan Benar – Beberapa Sikap Kunci dalam Praktik

1. Tetapkan Tolok Ukur dan Ekspektasi yang Wajar

Untuk bidang berisiko tinggi (diagnosis medis, saran hukum), akurasi 90% pun masih jauh dari cukup, harus melibatkan tinjauan manusia atau verifikasi ganda.
Untuk skenario berisiko rendah (customer service cadangan, pencarian pengetahuan internal), akurasi 80% ditambah respons "tidak tahu" yang ramah, mungkin sudah dapat meningkatkan efisiensi secara signifikan.

2. Jangan Kejar 100%, Kejarlah "Akurasi yang Dapat Diverifikasi"

Buat sistem secara otomatis menyertakan sumber referensi (artikel mana, paragraf mana).
Pengguna dapat melihat teks asli untuk memverifikasi sendiri, meskipun jawaban sesekali salah, transparansi juga dapat membangun kepercayaan.
Tambahkan skor keyakinan, pada skor rendah aktif memberikan peringatan "keandalan jawaban ini rendah, disarankan untuk memeriksa dokumen asli".

3. Anggap Akurasi sebagai Objek Optimasi Berkelanjutan, Bukan Target Sekali Jalan

Bangun pipeline evaluasi: secara berkala ekstrak sejumlah pertanyaan berlabel manual, evaluasi otomatis tingkat ketepatan pengambilan dan kesetiaan generasi.
Gunakan alat seperti RAGAS, TruLens untuk evaluasi sistematis, jangan hanya berdasarkan beberapa kasus.
Sesuaikan terus berdasarkan bad case: cara pemotongan, parameter retriever, model reranking, prompt.

4. Bedakan "Kesalahan Sistem" dan "Ketidaksesuaian Standar Manusia"

Terkadang jawaban yang diberikan sistem berbeda dari ekspektasi pengguna, tetapi menurut materi dalam basis pengetahuan sebenarnya benar (karena basis pengetahuan sendiri memiliki keterbatasan atau kontroversi).
Pada saat ini perlu ditentukan: apakah akurasi didasarkan pada "fakta basis pengetahuan" atau "fakta yang diakui secara eksternal"?

Ringkasan Akhir

Akurasi sistem tanya jawab pengetahuan bukanlah indikator statis yang sempurna, melainkan nilai kemampuan komprehensif yang mencerminkan "cakupan pengetahuan + ketepatan pengambilan + kesetiaan generasi + kemampuan menolak". Saat memandangnya, perlu secara rasional menyadari bahwa teknologi saat ini tidak dapat mencapai kesempurnaan, namun melalui desain seperti pelacakan sumber, petunjuk keyakinan, kolaborasi manusia-mesin, dapat benar-benar memberikan nilai dalam bisnis.