AI-serie interview 9: Hoe beoordeel je de nauwkeurigheid van een kennisvraag-antwoordsysteem?

De nauwkeurigheid is de kern van een kennisvraag-antwoordsysteem, vooral wanneer je het probeert toe te passen in serieuze scenario's (zoals medisch, juridisch, interne bedrijfsondersteuning). Mijn visie kan worden samengevat als: Nauwkeurigheid is een multidimensionaal concept; je moet niet alleen naar een enkel cijfer kijken, maar het combineren met systeemcapaciteiten, taakmoeilijkheid en foutkosten om het te evalueren.

Hieronder wordt het vanuit vier niveaus uitgewerkt:

Een: Nauwkeurigheid is niet zomaar "juist/onjuist"

Traditionele classificatieproblemen (zoals beeldherkenning) hebben een duidelijke nauwkeurigheid. Maar bij kennisvraag-antwoordsystemen is dat anders; veelvoorkomende subdimensies zijn:

Dimensie	Betekenis	Evaluatievoorbeeld
Retrieval-hitrate	Kan het systeem de documentstukken terugvinden die het juiste antwoord bevatten?	Gebruiker vraagt "Omzet van bedrijf A in 2024", kan het systeem het betreffende financiële rapport met die gegevens ophalen?
Generatiefideliteit	Is het door het model gegenereerde antwoord strikt gebaseerd op de opgehaalde inhoud, niet verzonnen?	Opgehaald materiaal vermeldt geen "groeicijfer", maar model zegt "5% gestegen" → ontrouw
Antwoordcorrectheid	Komt het uiteindelijke antwoord overeen met de feiten (of referentieantwoord)?	Juiste antwoord is "4,2 miljard", model output "4,2 miljard" of "ongeveer 42 miljard RMB" kan als correct worden beschouwd
Weigeringspercentage	Kan het systeem actief zeggen "weet ik niet" wanneer er geen relevante informatie in de kennisbank is, in plaats van te raden?	Bij lege retrieval of lage betrouwbaarheid, output "Sorry, geen relevante informatie gevonden"

Een systeem kan een hoge retrieval-hitrate hebben (vindt altijd relevante paragrafen), maar een lage generatiefideliteit (voegt altijd details toe), waardoor de uiteindelijke nauwkeurigheid alsnog slecht is. Daarom moet je bij het beoordelen van nauwkeurigheid eerst duidelijk maken welke schakel je meet.

Twee: Onder het huidige technische niveau, wat is de nauwkeurigheid van RAG-systemen?

Er is geen uniform cijfer, maar we kunnen verwijzen naar enkele openbare onderzoeken en praktijken:

Eenvoudige feitelijke vragen (single-hop, antwoord staat direct in één stuk materiaal):
Retrieval-hitrate kan 90-98% bereiken (afhankelijk van kwaliteit kennisbank en retriever), generatiefideliteit onder zorgvuldig ontworpen prompts 95%+, gecombineerde nauwkeurigheid kan tussen 85-95% liggen.
Multi-hop redenering (vereist combineren van informatie uit twee of meer verschillende stukken):
Retrieval-nauwkeurigheid daalt scherp naar 50-70%, antwoordcorrectheid mogelijk slechts 40-60%. Dit is het belangrijkste knelpunt van huidige RAG.
Open domein + ruizige kennisbank (zoals enorme webpagina's):
Nauwkeurigheid daalt aanzienlijk, omdat retrieval ruis kan introduceren en het model gemakkelijk wordt beïnvloed.

Conclusie: In een gecontroleerde omgeving (schoon, gestructureerd, juiste documentgranulariteit) kan RAG meer dan 90% nauwkeurigheid bereiken; maar in complexe, open, multi-hop redeneerscenario's is de nauwkeurigheid vaak onbevredigend en is veel optimalisatie nodig.

Drie: Kernfactoren die nauwkeurigheid beïnvloeden

Als je merkt dat de nauwkeurigheid van je RAG-systeem niet ideaal is, kun je meestal de volgende vier schakels controleren:

Kennisbank zelf
Zijn de gegevens verouderd, onvolledig of zelfs foutief?
Zijn documenten rommelig (bijv. scans niet ge-OCR'd, tabellen gebroken in onzin)?
Segmentatie en indexering
Textblokken te kort geknipt → context verloren; te lang → ruis toegevoegd.
Past het inbeddingsmodel bij jouw domein (algemeen model kan slecht presteren op juridische termen)?
Retrievalstrategie
Alleen vectorretrieval kan exacte trefwoorden missen (zoals productmodellen).
Geen herordening leidt tot irrelevante inhoud in de topresultaten.
Generatiefase
Vereist de prompt expliciet "antwoord alleen op basis van verstrekt materiaal, weiger indien onvoldoende"?
Is de modelcapaciteit voldoende (kleine modellen missen gemakkelijk details in lange context)?

Een veelvoorkomende misvatting: lage nauwkeurigheid direct toeschrijven aan onvoldoende LLM-capaciteit, terwijl de meeste problemen liggen bij "retrieval" en "promptontwerp".

Vier: Hoe "nauwkeurigheid" correct te beoordelen - enkele belangrijke houdingen in de praktijk

1. Stel redelijke benchmarks en verwachtingen

Voor risicovolle domeinen (medische diagnose, juridisch advies) is 90% nauwkeurigheid verre van voldoende; menselijke controle of meervoudige verificatie is noodzakelijk.
Voor laagrisicoscenario's (klantenservice-opvang, interne kenniszoekopdracht) kan 80% nauwkeurigheid plus een vriendelijke "weet ik niet" reactie al aanzienlijke efficiëntieverbetering opleveren.

2. Streef niet naar 100%, maar naar "verifieerbare nauwkeurigheid"

Laat het systeem automatisch bronnen vermelden (welk artikel, welke paragraaf).
Gebruikers kunnen de originele tekst zelf verifiëren; zelfs als het antwoord af en toe fout is, schept transparantie vertrouwen.
Voeg betrouwbaarheidsscores toe; bij lage scores actief aangeven "Dit antwoord heeft lage betrouwbaarheid, raadpleeg het originele document".

3. Beschouw nauwkeurigheid als een continu optimalisatieobject, niet als een eenmalig doel

Bouw een evaluatiepijplijn: trek regelmatig een steekproef van handmatig gelabelde vragen, automatiseer evaluatie van retrieval-hitrate en generatiefideliteit.
Gebruik tools zoals RAGAS, TruLens voor systematische evaluatie, niet op basis van een paar casussen.
Pas op basis van bad cases aan: segmentatiemethode, retrieverparameters, herordeningsmodel, prompts.

4. Onderscheid "systeemfouten" en "afwijking van menselijke standaard"

Soms verschilt het door het systeem gegeven antwoord van de verwachting van de gebruiker, maar is het volgens de kennisbank correct (omdat de kennisbank zelf beperkingen of controverses heeft).
Dan moet worden bepaald: is de nauwkeurigheid gebaseerd op "feiten in de kennisbank" of op "algemeen erkende externe feiten"?

Slotconclusie

De nauwkeurigheid van een kennisvraag-antwoordsysteem is geen statische perfecte score, maar een algehele capaciteitswaarde die 'kennisdekking + retrievalprecisie + generatiefideliteit + weigeringsvermogen' weerspiegelt. Bij het beoordelen ervan moet je zowel rationeel erkennen dat de huidige technologie niet perfect kan zijn, als door middel van bronvermelding, betrouwbaarheidsindicaties en mens-machine samenwerking de daadwerkelijke waarde in de praktijk realiseren.