AI-serie intervju 9: Hvordan vurdere nøyaktigheten til kunnskapsspørsmålssystemer?

Nøyaktighet er den sentrale livlinjen til et kunnskapsspørsmålssystem, spesielt når du prøver å bruke det i seriøse sammenhenger (som medisin, jus, intern støtte i bedrifter). Mitt syn kan oppsummeres som: Nøyaktighet er et flerdimensjonalt konsept, ikke bare ett tall, men må vurderes helhetlig basert på systemkapasitet, oppgavevanskelighetsgrad og feilkostnad.

Nedenfor utdyper jeg fra fire nivåer:

1. Nøyaktighet er ikke bare "rett/galt"

For tradisjonelle klassifiseringsproblemer (som bildegjenkjenning) er nøyaktigheten klar. Men for kunnskapsspørsmålssystemer er det vanlige underdimensjoner:

Dimensjon	Betydning	Eksempel på evaluering
Treffrate for gjenfinning	Kan systemet hente dokumentblokker som inneholder riktig svar fra kunnskapsbasen?	Bruker spør "omsetning i 2024 for selskap A", kan systemet hente regnskapsdelen som inneholder disse dataene?
Genereringstrofasthet	Er svaret generert av modellen strengt tatt basert på det hentede innholdet, ikke oppdiktet?	Henting inkluderte ikke "vekstrate", men modellen sier "økte med 5 %" → utro
Svarriktighet	Stemmer det endelige svaret med fakta (eller referansesvar)?	Riktig svar er "42 milliarder", modellens utdata "42 milliarder" eller "omtrent 42 milliarder RMB" kan betraktes som korrekt
Avslagsrate	Når kunnskapsbasen mangler relevant informasjon, kan systemet aktivt si "vet ikke" i stedet for å gjette?	Når henting er tom eller tilliten er lav, utdata "Beklager, ingen relevant informasjon funnet"

Et system kan ha høy treffrate for gjenfinning (finner alltid relevante avsnitt), men lav genereringstrofasthet (alltid pynte på ting), og den endelige nøyaktigheten er likevel dårlig. Derfor må du først avklare hvilket ledd du måler når du ser på nøyaktighet.

2. Under nåværende teknologinivå, hvor nøyaktig kan et RAG-system være?

Det finnes ingen universelle tall, men vi kan referere til noen offentlige studier og praksis:

Enkle fakta-spørsmål (enkelt hopp, svar vises direkte i ett avsnitt):
Treffrate for gjenfinning kan være 90-98 % (avhengig av kunnskapskvalitet og gjenfinner), genereringstrofasthet kan være 95 %+ med godt utformede prompts, samlet nøyaktighet kan være 85-95 %.
Flere hopp-resonnering (trenger å kombinere informasjon fra to eller flere avsnitt):
Gjenfinningsnøyaktighet faller kraftig til 50-70 %, svarriktighet kan være bare 40-60 %. Dette er hovedutfordringen for RAG i dag.
Åpent domene + støyende kunnskapsbase (som store mengder nettsider):
Nøyaktigheten faller betydelig, fordi gjenfinning kan introdusere støy, og modellen blir lett forstyrret.

Konklusjon: I et kontrollert miljø (rent, strukturert, passende dokumentgranularitet) kan RAG oppnå over 90 % nøyaktighet; men i komplekse, åpne scenarier som krever flere resonnementstrinn, er nøyaktigheten ofte utilfredsstillende og krever mye optimalisering.

3. Kjernfaktorer som påvirker nøyaktigheten

Hvis du oppdager at ditt RAG-system har lav nøyaktighet, kan du vanligvis feilsøke fra følgende fire ledd:

Selve kunnskapsbasen
Er dataene utdaterte, ufullstendige eller til og med feil?
Er dokumentene rotete (f.eks. skannede dokumenter som ikke er OCR-behandlet, tabeller delt opp i uorden)?
Segmentering og indeksering
For korte tekstblokker → mister kontekst; for lange → inkluderer støy.
Er innbyggingsmodellen egnet for ditt domene (generell modell kan være dårlig på juridiske termer)?
Gjenfinningsstrategi
Bare vektorgjenfinning kan ignorere nøyaktige nøkkelord (som produktmodeller).
Uten omrangering kan irrelevante resultater blandes inn i de øverste.
Genereringsledd
Spesifiserer prompten tydelig "svar bare basert på gitt materiale, hvis utilstrekkelig, avslå"?
Er modellkapasiteten tilstrekkelig (små modeller overser lett detaljer i lang kontekst)?

En vanlig misforståelse: Å legge lav nøyaktighet direkte på LLMs utilstrekkelighet, men de fleste problemene ligger faktisk i "gjenfinning" og "promptdesign".

4. Hvordan "se på" nøyaktighet på riktig måte – flere viktige holdninger i praksis

1. Sett rimelige referanser og forventninger

For høyrisikoområder (medisinsk diagnose, juridiske råd) er 90 % nøyaktighet også langt fra nok, man må innføre manuell revisjon eller flere verifikasjoner.
For lavrisikoscenarioer (kundeservice backup, intern kunnskapssøk) kan 80 % nøyaktighet kombinert med vennlige "vet ikke"-svar allerede forbedre effektiviteten betraktelig.

2. Ikke jag 100 %, jakt på "verifiserbar nøyaktighet"

La systemet automatisk legge ved kilder (hvilken artikkel, hvilket avsnitt).
Brukeren kan se originalteksten og verifisere selv, selv om svaret av og til er feil, bygger åpenhet tillit.
Legg til tillitsskår, og når det er lavt, gi aktivt hint "Dette svaret har lav pålitelighet, vennligst sjekk originaldokumentet".

3. Betrakt nøyaktighet som kontinuerlig forbedringsobjekt, ikke engangsmål

Bygg en evalueringspipeline: Ta jevnlig ut et sett med manuelt merkede spørsmål, automatisk evaluere treffrate for gjenfinning og genereringstrofasthet.
Bruk verktøy som RAGAS, TruLens for systematisk evaluering, ikke basert på noen få tilfeller.
Juster kontinuerlig basert på dårlige tilfeller: segmenteringsmetode, gjenfinningsparametere, omrangeringsmodell, prompt.

4. Skill mellom "systemfeil" og "menneskelig standardinkonsistens"

Noen ganger er svaret fra systemet forskjellig fra brukerens forventning, men ifølge materialet i kunnskapsbasen er det faktisk riktig (fordi kunnskapsbasen har begrensninger eller kontroverser).
Da må vi definere: er nøyaktigheten basert på "kunnskapsbasefakta" eller "eksternt aksepterte fakta"?

Oppsummering til slutt

Nøyaktigheten til et kunnskapsspørsmålssystem er ikke en statisk perfekt indikator, men en samlet kapasitetsverdi som gjenspeiler "kunnskapsdekning + gjenfinningspresisjon + genereringstrofasthet + avslagsevne". Når du ser på det, må du både rasjonelt erkjenne at dagens teknologi ikke kan være perfekt, og gjennom design som kildehenvisning, tillitsindikasjon og menneske-maskin-samarbeid, faktisk realisere verdi i virksomheten.