Entrevista de la sèrie AI 9: Com veieu la precisió dels sistemes de pregunta-resposta?

La precisió és la línia de vida d'un sistema de pregunta-resposta, especialment quan s'intenta aplicar en entorns seriosos (com medicina, dret, suport intern empresarial). La meva opinió es pot resumir així: la precisió és un concepte multidimensional; no es pot mirar només un sol número, sinó que s'ha d'avaluar combinant les capacitats del sistema, la dificultat de la tasca i el cost de tolerància a errors.

Desglossem-ho en quatre nivells:

1. La precisió no és simplement "encertat o erroni"

Per problemes de classificació tradicionals (com el reconeixement d'imatges), la precisió és clara. Però en un sistema de pregunta-resposta, les dimensions comunes inclouen:

Dimensió	Significat	Exemple d'avaluació
Taxa d'encert en la recuperació	Pot el sistema recuperar el fragment de document que conté la resposta correcta de la base de coneixement?	L'usuari pregunta "ingressos de l'empresa A el 2024", pot el sistema trobar el fragment d'informe financer que inclou aquesta dada?
Fidelitat en la generació	Es basa la resposta generada estrictament en el contingut recuperat, sense inventar?	El material recuperat no esmenta "taxa de creixement", però el model diu "va créixer un 5%" → no fidel
Correcció de la resposta	Coincideix la resposta final amb els fets (o amb una resposta de referència)?	La resposta correcta és "4.200 milions", la sortida del model "4.200 milions" o "aproximadament 4.200 milions de RMB" es pot considerar correcte
Taxa de rebuig	Pot el sistema dir activament "no ho sé" quan no hi ha informació rellevant a la base de coneixement, en lloc de suposar?	Quan la recuperació està buida o la confiança és baixa, sortir "Ho sento, no s'ha trobat informació rellevant"

Un sistema pot tenir una taxa d'encert en recuperació molt alta (sempre troba el paràgraf rellevant), però una fidelitat en la generació molt baixa (sempre afegeix detalls inventats), resultant finalment en una precisió pobra. Per tant, per avaluar la precisió primer cal aclarir quina etapa s'està mesurant.

2. Amb la tecnologia actual, quina precisió pot assolir un sistema RAG?

No hi ha una xifra única, però es poden consultar algunes investigacions i pràctiques públiques:

Preguntes senzilles de fet (un sol salt, la resposta apareix directament en un fragment):
La taxa d'encert en recuperació pot arribar al 90-98% (depenent de la qualitat de la base de coneixement i del recuperador), la fidelitat en la generació pot superar el 95% amb instruccions ben dissenyades, i la precisió global pot estar entre el 85-95%.
Raonament de múltiples salts (requereix combinar informació de dos o més fragments diferents):
La precisió de recuperació cau dràsticament al 50-70%, i la correcció de la resposta generada pot ser només del 40-60%. Aquest és el principal repte actual del RAG.
Domini obert + base de coneixement sorollosa (com grans quantitats de pàgines web):
La precisió baixa significativament perquè la recuperació pot introduir soroll i el模型 es veu fàcilment interferit.

Conclusió: En entorns controlats (dades netes, estructurades, amb fragments de mida adequada), el RAG pot superar el 90% de precisió; però en escenaris complexos, oberts i que requereixen raonament de múltiples passos, la precisió sovint no és satisfactòria i requereix molta optimització.

3. Factors clau que afecten la precisió

Si trobeu que la precisió del vostre sistema RAG no és ideal, normalment podeu revisar els quatre aspectes següents:

La base de coneixement en si
Les dades són obsoletes, incompletes o fins i tot errònies?
Els documents són caòtics (per exemple, documents escanejats sense OCR, taules trencades en caràcters il·legibles)?
Segmentació i indexació
Talls de text massa curts → pèrdua de context; massa llargs → incorporació de soroll.
El model d'incrustació és adequat per al vostre domini (els models generals poden funcionar malament en terminologia jurídica)?
Estratègia de recuperació
Només la recuperació vectorial pot ignorar paraules clau exactes (com models de producte).
No s'ha aplicat un reordenament, cosa que fa que resultats irrellevants apareguin a les primeres posicions.
Fase de generació
Les instruccions exigeixen clarament "respon només basant-te en el material proporcionat; si no n'hi ha prou, rebutja"?
La capacitat del model és suficient (els models petits solen ignorar detalls en contextos llargs)?

Un error comú: atribuir la baixa precisió directament a la capacitat insuficient del LLM, quan en realitat la majoria dels problemes rauen en la "recuperació" i el "disseny de les instruccions".

4. Com "veure" correctament la precisió: algunes actituds clau a la pràctica

1. Establir punts de referència i expectatives raonables

Per a àrees d'alt risc (diagnòstic mèdic, consells legals), una precisió del 90% no és suficient; cal introduir revisió humana o verificació múltiple.
Per a escenaris de baix risc (atenció al client bàsica, cerca interna de coneixement), una precisió del 80% juntament amb una resposta amable de "no ho sé" ja pot millorar significativament l'eficiència.

2. No busqueu el 100%, busqueu una "precisió verificable"

Feu que el sistema adjunti automàticament les fonts de referència (a quin article i a quin paràgraf es refereix).
L'usuari pot veure l'original i verificar-ho per si mateix; fins i tot si la resposta és ocasionalment errònia, la transparència genera confiança.
Afegiu una puntuació de confiança; quan sigui baixa, indiqueu activament "Aquesta resposta té una fiabilitat baixa; us recomanem consultar el document original".

3. Tracteu la precisió com un objectiu de millora contínua, no un objectiu únic

Creeu una canonada d'avaluació: extreu periòdicament un conjunt de preguntes etiquetades manualment i avalueu automàticament la taxa d'encert en recuperació i la fidelitat en la generació.
Utilitzeu eines com RAGAS, TruLens per a una avaluació sistemàtica, en lloc de confiar en uns quants casos.
Ajusteu contínuament segons els casos dolents: mètode de segmentació, paràmetres del recuperador, model de reordenament, instruccions.

4. Diferencieu entre "error del sistema" i "incoherència amb l'estàndard humà"

De vegades, la resposta del sistema és diferent del que espera l'usuari, però segons el contingut de la base de coneixement és correcta (perquè la base té limitacions o controvèrsies).
En aquest cas, cal definir: la precisió es mesura respecte als "fets de la base de coneixement" o als "fets reconeguts externament"?

Resum final

La precisió d'un sistema de pregunta-resposta no és un indicador estàtic de puntuació perfecta, sinó un valor de capacitat integral que reflecteix "cobertura de coneixement + precisió de recuperació + fidelitat de generació + capacitat de rebuig". Per avaluar-la, cal reconèixer racionalment que la tecnologia actual no pot ser perfecta, i alhora dissenyar mecanismes com la traçabilitat de les fonts, la indicació de confiança i la col·laboració humà-màquina per aprofitar el valor real en el negoci.