AI-serie interview 9: Hvordan vurderer man nøjagtigheden af vidensbaserede spørgsmålssystemer?

Nøjagtighed er den centrale livline i et vidensspørgsmålssystem, især når man forsøger at anvende det i seriøse scenarier (som sundhed, jura, intern virksomhedssupport). Min holdning kan opsummeres: Nøjagtighed er et multidimensionelt koncept; man kan ikke kun se på et enkelt tal, men skal vurdere det i kombination med systemets evner, opgavens sværhedsgrad og omkostningerne ved fejl.

Nedenfor uddybes det i fire niveauer:

1. Nøjagtighed er ikke bare "rigtigt/forkert"

Traditionelle klassifikationsproblemer (som billedgenkendelse) har en klar nøjagtighed. Men for vidensspørgsmålssystemer er det anderledes; almindelige underopdelinger inkluderer:

Dimension	Betydning	Evaluerings eksempel
Søgetræf	Kan systemet hente dokumentblokke med de korrekte svar fra vidensbasen?	Bruger spørger "A-selskabs omsætning i 2024", kan systemet hente den del af årsrapporten der indeholder dataene?
Genereringstroskab	Er modellens svar strengt baseret på det hentede indhold, ikke opdigtet?	Hentet materiale nævner ikke "vækstrate", men modellen siger "vokset med 5%" → utroskab
Svar korrekthed	Er slutresultatet i overensstemmelse med fakta (eller referencesvar)?	Korrekt svar er "42 mia.", model output "42 mia." eller "ca. 42 milliarder RMB" kan begge anses som korrekte
Afvisningsrate	Når vidensbasen ikke har relevant information, kan systemet aktivt sige "ved ikke" i stedet for at gætte?	Når søgning er tom eller tilliden er lav, output "Beklager, ingen relevant information fundet"

Et system kan have høj søgetræf (finder altid relevante afsnit), men lav genereringstroskab (tilføjer altid noget), og den endelige nøjagtighed er stadig dårlig. Derfor skal man først præcisere hvilket trin man måler, når man ser på nøjagtighed.

2. Hvad kan nøjagtigheden for RAG-systemer nå under nuværende teknologi?

Der er ikke et ensartet tal, men man kan henvise til offentlig forskning og praksis:

Simple fakta-spørgsmål (enkelt hop, svar findes direkte i én kilde):
Søgetræf kan nå 90-98% (afhænger af vidensbasekvalitet og søger), genereringstroskab kan nå 95%+ med omhyggeligt designede prompter, samlet nøjagtighed kan være mellem 85-95%.
Flertrinsræsonnement (kræver kombination af information fra to eller flere kilder):
Søgenøjagtighed falder dramatisk til 50-70%, svar korrekthed kan kun være 40-60%. Dette er den største udfordring for nuværende RAG.
Åbent domæne + støjende vidensbase (f.eks. enorme mængder websider):
Nøjagtigheden falder betydeligt, fordi søgning kan introducere støj, og modellen let forstyrres.

Konklusion: I et kontrolleret miljø (rent, struktureret, passende dokumentgranularitet) kan RAG opnå over 90% nøjagtighed; men i komplekse, åbne scenarier med flertrinsræsonnement er nøjagtigheden ofte utilfredsstillende og kræver massiv optimering.

3. Kernfaktorer der påvirker nøjagtighed

Hvis du oplever at dit RAG-systems nøjagtighed ikke er ideel, kan du typisk fejlfinde i disse fire trin:

Selve vidensbasen
Er data forældet, ufuldstændig eller endda fejlagtig?
Er dokumenterne rodede (f.eks. scannede dokumenter uden OCR, tabeller brudt i uorden)?
Opdeling og indeksering
For korte tekstblokke → mister kontekst; for lange → tilføjer støj.
Er indlejringsmodellen egnet til dit domæne (generelle modeller præsterer muligvis dårligt med juridiske termer)?
Søgestrategi
Kun vektorsøgning kan overse præcise nøgleord (f.eks. produktmodeller).
Manglende genrangering fører til irrelevante resultater i top.
Genereringstrin
Kræver prompten eksplicit "svar kun baseret på de givne kilder, afvis hvis utilstrækkeligt"?
Er modelkapaciteten tilstrækkelig (små modeller overser let detaljer i lang kontekst)?

En almindelig misforståelse: At skyde lav nøjagtighed direkte på LLM'ens utilstrækkelighed, men i virkeligheden ligger problemerne oftest i "søgning" og "promptdesign".

4. Hvordan man "ser" på nøjagtighed korrekt – flere nøgleholdninger i praksis

1. Sæt rimelige benchmarks og forventninger

For højrisikoområder (medicinsk diagnose, juridisk rådgivning) er 90% nøjagtighed langt fra nok; man må indføre manuel gennemgang eller dobbeltverifikation.
For lavrisikoscenarier (kundeservice backup, intern viden søgning) kan 80% nøjagtighed kombineret med en venlig "ved ikke" respons allerede forbedre effektiviteten betydeligt.

2. Stræb ikke efter 100%, men efter "verificerbar nøjagtighed"

Lad systemet automatisk vedhæfte kildereferencer (hvilken artikel, hvilket afsnit).
Brugeren kan selv tjekke originalteksten; selv hvis svaret en gang imellem tager fejl, skaber gennemsigtighed tillid.
Tilføj tillidsscore, og ved lav score aktivt påpege "dette svar er mindre pålideligt, se venligst originaldokumentet".

3. Betragt nøjagtighed som et objekt for løbende optimering, ikke et engangsmål

Etabler evalueringspipeline: Udtag jævnligt et sæt manuelt annoterede spørgsmål, automatisk evaluer søgetræf og genereringstroskab.
Brug værktøjer som RAGAS, TruLens til systematisk evaluering, ikke bare et par cases.
Juster baseret på dårlige cases: opdelingsmetode, søgeparameter, genrangeringsmodel, prompt.

4. Skel mellem "systemfejl" og "uoverensstemmelse med menneskelige standarder"

Nogle gange giver systemet et svar der adskiller sig fra brugerens forventning, men ifølge vidensbasen er det korrekt (fordi vidensbasen selv har begrænsninger eller kontroverser).
Her må man definere: Er nøjagtighed baseret på "vidensbasis fakta" eller "eksternt anerkendte fakta"?

Afsluttende opsummering

Nøjagtigheden af et vidensspørgsmålssystem er ikke en statisk perfekt indikator, men en samlet kapacitetsværdi der afspejler "viden dækning + søgepræcision + genereringstroskab + afvisningsevne". Når man ser på det, skal man både rationelt erkende at nuværende teknologi ikke kan være perfekt, og samtidig gennem design som kildesporing, tillidsindikatorer og menneske-maskine samarbejde, skabe reel værdi i forretningen.