AI Series Interview 9: Paano Tinitingnan ang Accuracy ng Knowledge Q&A System?

Ang accuracy ay ang pangunahing lifeline ng isang knowledge Q&A system, lalo na kapag sinusubukan mong ilapat ito sa seryosong konteksto (tulad ng medikal, legal, panloob na suporta ng kompanya). Ang aking pananaw ay maaaring ibuod bilang: Ang accuracy ay isang multidimensional na konsepto, hindi dapat tumingin lamang sa iisang numero, kundi suriin ito nang pinagsama sa kakayahan ng system, kahirapan ng gawain, at halaga ng pagpapaubaya sa error.

Ito ay inilalahad sa apat na antas:

I. Ang accuracy ay hindi lamang "tama/mali"

Sa tradisyonal na klasipikasyong problema (tulad ng image recognition), malinaw ang accuracy. Ngunit ang knowledge Q&A system ay may iba't ibang karaniwang dimensyon:

Dimensyon	Kahulugan	Halimbawa ng Pagsusuri
Retrieval hit rate	Nagagawa ba ng system na makuha mula sa knowledge base ang dokumentong naglalaman ng tamang sagot?	Tanong ng user: "Kita ng Kompanya A noong 2024". Nagawa ba ng system na makuha ang bahagi ng financial report na naglalaman ng datos na iyon?
Generation fidelity	Ang sagot ba na ginawa ng model ay mahigpit na nakabatay sa nakuha na nilalaman, at hindi gawa-gawa lamang?	Ang nakuha na materyal ay hindi binanggit ang "growth rate", ngunit sinabi ng model na "lumago ng 5%" → hindi tapat
Correctness ng sagot	Ang huling sagot ba ay pareho sa katotohanan (o sangguniang sagot)?	Tamang sagot ay "4.2 bilyon", ang output ng model na "4.2 bilyon" o "mga 4.2 bilyong RMB" ay maituturing na tama
Refusal rate	Kapag walang kaugnayang impormasyon sa knowledge base, sinasabi ba ng system na "hindi alam" sa halip na manghula?	Kapag walang retrieval o mababa ang kumpyansa, mag-output ng "Pasensya, hindi mahanap ang kaugnayang impormasyon"

Ang isang system ay maaaring may mataas na retrieval hit rate (laging makahanap ng kaugnayang talata), ngunit mababang generation fidelity (laging nagdaragdag ng detalye), kaya ang huling accuracy ay mababa pa rin. Kaya, sa pagtingin sa accuracy, kailangan munang tukuyin kung aling bahagi ang sinusukat.

II. Sa kasalukuyang teknolohiya, gaano kataas ang accuracy ng RAG system?

Walang iisang numero, ngunit may mga sanggunian mula sa pampublikong pananaliksik at praktika:

Simpleng fact-based Q&A (single-hop, ang sagot ay direktang makikita sa isang talata):
Ang retrieval hit rate ay maaaring umabot sa 90-98% (depende sa kalidad ng knowledge base at sa retrieval algorithm), ang generation fidelity sa maingat na dinisenyong prompt ay maaaring umabot sa 95%+, ang kabuuang accuracy ay maaaring nasa 85-95%.
Multi-hop reasoning (kailangang pagsamahin ang impormasyon mula sa dalawang magkaibang talata):
Ang retrieval accuracy ay biglang bumabagsak sa 50-70%, ang correctness ng sagot ay maaaring 40-60% lamang. Ito ang pangunahing hamon ng RAG sa kasalukuyan.
Open domain + maingay na knowledge base (tulad ng malawak na web pages):
Ang accuracy ay makabuluhang bumababa dahil ang retrieval ay maaaring magpasok ng ingay, at ang model ay madaling maapektuhan.

Konklusyon: Sa kontroladong kapaligiran (malinis, structured, angkop na laki ng dokumento), ang RAG ay maaaring makamit ang accuracy na higit sa 90%; ngunit sa komplikado, open, at multi-step reasoning na sitwasyon, ang accuracy ay kadalasang hindi gaanong maganda at nangangailangan ng maraming optimization.

III. Mga pangunahing salik na nakakaapekto sa accuracy

Kung napapansin mong hindi maganda ang accuracy ng iyong RAG system, maaaring suriin ang mga sumusunod na apat na bahagi:

Ang knowledge base mismo
Ang data ba ay luma, hindi kumpleto, o may error?
Ang dokumento ba ay magulo (tulad ng scanned na walang OCR, o table na nasira)?
Pagsegmentation at indexing
Masyadong maiksi ang pagputol ng text chunk → nawawala ang konteksto; masyadong mahaba → may kasamang ingay.
Angkop ba ang embedding model sa iyong domain (ang generic na model ay maaaring mahina sa legal terms)?
Retrieval strategy
Ang paggamit lamang ng vector retrieval ay maaaring makaligtaan ang eksaktong keyword (tulad ng product model number).
Walang reranking na nagdudulot na ang mga nangungunang resulta ay may hindi kaugnayang nilalaman.
Generation phase
Ang prompt ba ay malinaw na nag-uutos na "sagutin lamang batay sa ibinigay na materyal, kung hindi sapat ay tumanggi"?
Sapat ba ang kakayahan ng model (ang maliit na model ay madaling makaligtaan ang detalye sa mahabang konteksto)?

Isang karaniwang maling paniniwala: Ang mababang accuracy ay direktang ibinibilang sa kakulangan ng LLM, ngunit sa katotohanan, ang karamihan ng problema ay nasa "retrieval" at "prompt design".

IV. Paano tamang 'tingnan' ang accuracy — ilang mahalagang saloobin sa praktika

1. Magtakda ng makatwirang baseline at inaasahan

Para sa high-risk na domain (medical diagnosis, legal advice), kahit 90% accuracy ay hindi sapat; kailangan ng human review o multiple verification.
Para sa low-risk na sitwasyon (customer service fallback, internal knowledge search), ang 80% accuracy kasama ang magiliw na 'hindi alam' na tugon ay maaaring malaking tulong sa efficiency.

2. Huwag hangarin ang 100%, hangarin ang 'na-verify na accuracy'

Hayaan ang system na awtomatikong mag-attach ng citation (kung saang artikulo o talata ito nagmula).
Makikita ng user ang orihinal na teksto upang mag-verify; kahit minsan magkamali ang sagot, ang transparency ay nagtatayo ng tiwala.
Magdagdag ng confidence score, at kapag mababa ito, aktibong mag-prompt na "ang sagot na ito ay maaaring hindi maaasahan, inirerekomenda na tingnan ang orihinal na dokumento".

3. Ituring ang accuracy bilang patuloy na ino-optimize, hindi isang beses na target

Magtayo ng evaluation pipeline: pana-panahong kumuha ng batch ng human-annotated questions, awtomatikong suriin ang retrieval hit rate at generation fidelity.
Gumamit ng mga tool tulad ng RAGAS, TruLens para sa sistematikong pagsusuri, hindi batay sa ilang kaso lang.
Ayon sa bad cases, patuloy na ayusin: paraan ng pagsegment, retrieval parameters, reranking model, prompt.

4. Paghiwalayin ang 'system error' at 'hindi pagkakasundo sa pamantayan ng tao'

Minsan ang sagot ng system ay naiiba sa inaasahan ng user, ngunit ayon sa nilalaman ng knowledge base, ito ay tama (dahil ang knowledge base mismo ay may limitasyon o kontrobersya).
Sa ganitong sitwasyon, kailangan tukuyin: ang accuracy ba ay batay sa 'katotohanan ng knowledge base' o sa 'panlabas na kinikilalang katotohanan'?

Huling buod

Ang accuracy ng knowledge Q&A system ay hindi isang static na perfect score, kundi isang pinagsamang halaga ng 'knowledge coverage + retrieval precision + generation fidelity + refusal capability'. Kapag tiningnan ito, kailangan maging makatwiran na ang kasalukuyang teknolohiya ay hindi perpekto, ngunit sa pamamagitan ng mga disenyo tulad ng citation tracing, confidence indication, at human-machine collaboration, maaari itong magkaroon ng halaga sa negosyo.