AI-seriens intervju 9: Hur ser man på noggrannheten hos kunskapsfrågesvarssystem?

Noggrannheten är den centrala livslinjen för ett kunskapsfrågesvarssystem, särskilt när du försöker tillämpa det i seriösa sammanhang (som medicin, juridik, intern företagsstöd). Min syn kan sammanfattas som: Noggrannhet är ett mångdimensionellt begrepp, man kan inte bara titta på en siffra, utan måste kombinera systemets förmåga, uppgiftens svårighet och kostnaden för fel för att göra en helhetsbedömning.

Nedan utvecklar jag på fyra nivåer:

1. Noggrannhet är inte bara "rätt/fel"

För traditionella klassificeringsproblem (som bildigenkänning) är noggrannheten tydlig. Men för kunskapsfrågesvarssystem är det annorlunda, vanliga dimensioner inkluderar:

Dimension	Betydelse	Utvärderingsexempel
Träffprocent för sökning	Kan systemet hitta dokumentblock från kunskapsbasen som innehåller rätt svar?	Användaren frågar "A-bolagets intäkter 2024", kan systemet hitta den finansiella rapporten med den datan?
Trogenhet i generering	Är modellens svar strikt baserat på det sökta innehållet, inte påhittat?	Sökt material nämner inte "tillväxttakt", men modellen säger "ökade med 5%" → otrogen
Svarsriktighet	Stämmer slutsvaret överens med fakta (eller referenssvar)?	Rätt svar är "4,2 miljarder", modellen skriver "4,2 miljarder" eller "cirka 4,2 miljarder Yuan" kan anses rätt
Avvisningsgrad	När kunskapsbasen saknar relevant information, kan systemet aktivt säga "vet inte" istället för att gissa?	När sökningen är tom eller konfidensen låg, skriv "Tyvärr, ingen information hittades"

Ett system kan ha hög träffprocent för sökning (hittar alltid relevanta stycken), men låg trogenhet i generering (lägger alltid till egna uppgifter), och slutnoggrannheten blir ändå dålig. Därför måste man först tydligt definiera vilken del man mäter när man ser på noggrannheten.

2. Under nuvarande tekniknivå, hur hög kan noggrannheten vara för RAG-system?

Det finns inget enhetligt svar, men vi kan referera till offentlig forskning och praxis:

Enkla faktabaserade frågor (enkelhopp, svaret finns direkt i ett avsnitt):
Träffprocent för sökning kan nå 90-98% (beroende på kunskapsbaskvalitet och sökmotor), trogenhet i generering kan nå 95%+ med noggrann promptning, total noggrannhet kan ligga mellan 85-95%.
Flerhoppsresonemang (kräver att kombinera information från två eller flera olika avsnitt):
Söknoggrannheten sjunker drastiskt till 50-70%, svarsriktigheten kan bara vara 40-60%. Detta är den främsta utmaningen för RAG idag.
Öppen domän + brusig kunskapsbas (som massiva webbsidor):
Noggrannheten minskar markant, eftersom sökningen kan introducera brus och modellen lätt påverkas.

Slutsats: I kontrollerade miljöer (ren, strukturerad, lämplig dokumentgranularitet) kan RAG uppnå över 90% noggrannhet; i komplexa, öppna scenarier som kräver flerstegsresonemang är noggrannheten ofta otillräcklig och kräver omfattande optimering.

3. Kärnfaktorer som påverkar noggrannheten

Om du upptäcker att ditt RAG-systems noggrannhet inte är idealisk, kan du vanligtvis felsöka i följande fyra delar:

Själva kunskapsbasen
Är data inaktuell, ofullständig eller till och med felaktig?
Är dokumenten röriga (t.ex. skannade dokument utan OCR, tabeller som brutits till otydlig text)?
Segmentering och indexering
Textblock för korta → förlorar kontext; för långa → innehåller brus.
Är inbäddningsmodellen lämplig för din domän (allmän modell kan prestera dåligt på juridiska termer)?
Sökstrategi
Enbart vektorsökning kan missa exakta sökord (som produktmodeller).
Omdirigering utan viktning kan leda till att irrelevanta resultat hamnar högst upp.
Genereringsstadiet
Kräver prompten tydligt "svara endast baserat på den medföljande informationen, avvisa om otillräckligt"?
Är modellen tillräckligt kapabel (små modeller tenderar att förbise detaljer i långa kontexter)?

En vanlig missuppfattning: Att skylla låg noggrannhet direkt på LLM:s bristande förmåga, medan problemet oftast ligger i "sökning" och "promptdesign".

4. Hur man korrekt "ser på" noggrannhet – några nyckelattityder i praktiken

1. Sätt rimliga riktmärken och förväntningar

För högriskområden (medicinsk diagnos, juridisk rådgivning) räcker inte 90% noggrannhet, man måste införa mänsklig granskning eller flera verifieringssteg.
För lågriskscenarier (kundsupport, intern kunskapssökning) kan 80% noggrannhet plus en vänlig "vet inte"-respons redan avsevärt öka effektiviteten.

2. Sträva inte efter 100%, sträva efter "verifierbar noggrannhet"

Låt systemet automatiskt bifoga källreferenser (vilken artikel, vilket stycke).
Användaren kan se originaltexten och verifiera själv, även om svaret ibland är felaktigt skapar transparensen förtroende.
Lägg till konfidenspoäng, vid låg poäng varna aktivt "Detta svar har låg tillförlitlighet, rekommenderar att du kontrollerar originaldokumentet".

3. Betrakta noggrannhet som ett löpande optimeringsobjekt, inte ett engångsmål

Skapa en utvärderingspipeline: ta regelbundet ut en uppsättning manuellt annoterade frågor, automatiskt utvärdera träffprocent för sökning och trogenhet i generering.
Använd verktyg som RAGAS, TruLens för systematisk utvärdering, istället för att bara lita på några enstaka fall.
Justera kontinuerligt baserat på dåliga fall: segmenteringsmetod, sökparametrar, omdirigeringsmodell, prompt.

4. Skilj på "systemfel" och "inkonsekventa mänskliga standarder"

Ibland är systemets svar annorlunda än användarens förväntan, men korrekt enligt kunskapsbasens innehåll (eftersom kunskapsbasen har begränsningar eller kontroverser).
Då måste man definiera: baseras noggrannheten på "kunskapsbasens fakta" eller "allmänt accepterade fakta"?

Slutlig sammanfattning

Noggrannheten hos ett kunskapsfrågesvarssystem är inte en statisk perfekt poäng, utan ett sammansatt förmågevärde som återspeglar "kunskapstäckning + sökprecision + genereringstrohet + avvisningsförmåga". När du ser på den, måste du både rationellt inse att nuvarande teknik inte kan vara perfekt, och genom design som källreferenser, konfidensindikatorer, människa-maskin-samarbete, faktiskt skapa värde i verksamheten.