Colloquio Serie AI 9: Come valutare l'accuratezza di un sistema di domande e risposte basato su conoscenza?

L'accuratezza è la linea di vita principale di un sistema di domande e risposte basato su conoscenza, specialmente quando si cerca di applicarlo a scenari seri (come medicina, legge, supporto interno aziendale). La mia opinione può essere riassunta come: L'accuratezza è un concetto multidimensionale; non si può guardare solo a un singolo numero, ma va valutata combinando capacità del sistema, difficoltà del compito e costo dell'errore.

Di seguito, mi espando su quattro livelli:

I. L'accuratezza non è semplicemente "risposta giusta/sbagliata"

Nei problemi di classificazione tradizionali (come il riconoscimento di immagini), l'accuratezza è chiara. Ma nei sistemi di domande e risposte basati su conoscenza, le dimensioni comuni includono:

Dimensione	Significato	Esempio di valutazione
Tasso di recupero	Il sistema riesce a recuperare dal knowledge base il documento contenente la risposta corretta?	L'utente chiede "Ricavi 2024 dell'azienda A", il sistema riesce a recuperare il segmento di bilancio con quei dati?
Fedeltà di generazione	La risposta generata dal modello è strettamente basata sul contenuto recuperato, senza inventare?	I dati recuperati non menzionano il "tasso di crescita", ma il modello dice "è cresciuto del 5%" → infedele
Correttezza della risposta	La risposta finale coincide con i fatti (o con la risposta di riferimento)?	La risposta corretta è "4,2 miliardi", il modello output "4,2 miliardi" o "circa 4,2 miliardi di RMB" è considerato corretto
Tasso di rifiuto	Quando il knowledge base non contiene informazioni pertinenti, il sistema è in grado di dire attivamente "non lo so", invece di indovinare?	Se il recupero è vuoto o la confidenza è bassa, output "Spiacente, nessuna informazione trovata"

Un sistema potrebbe avere un alto tasso di recupero (trova sempre i paragrafi pertinenti), ma una bassa fedeltà di generazione (aggiunge sempre dettagli non presenti), e alla fine l'accuratezza complessiva rimane scarsa. Pertanto, per valutare l'accuratezza bisogna prima chiarire quale anello si sta misurando.

II. Con la tecnologia attuale, quale accuratezza può raggiungere un sistema RAG?

Non esiste un numero uniforme, ma si possono fare riferimento ad alcune ricerche e pratiche pubbliche:

Domande fattuali semplici (salto singolo, risposta direttamente in un segmento):
Tasso di recupero può raggiungere 90-98% (a seconda della qualità del knowledge base e del recuperatore), fedeltà di generazione con prompt ben progettati può essere oltre il 95%, accuratezza complessiva tra l'85-95%.
Ragionamento multi-salto (richiede combinare informazioni da due o più segmenti diversi):
Accuratezza di recupero scende drasticamente al 50-70%, correttezza della risposta generata può essere solo del 40-60%. Questa è la principale difficoltà attuale del RAG.
Dominio aperto + knowledge base rumoroso (ad esempio, enormi pagine web):
L'accuratezza cala significativamente, perché il recupero può introdurre rumore e il modello è facilmente disturbato.

Conclusione: In ambienti controllati (puliti, strutturati, con granularità dei documenti appropriata), il RAG può raggiungere oltre il 90% di accuratezza; ma in scenari complessi, aperti e che richiedono ragionamento multi-passaggio, l'accuratezza spesso è insoddisfacente e richiede molte ottimizzazioni.

III. Fattori chiave che influenzano l'accuratezza

Se scopri che l'accuratezza del tuo sistema RAG non è ideale, di solito puoi verificare i seguenti quattro anelli:

Il knowledge base stesso
I dati sono obsoleti, incompleti o addirittura errati?
I documenti sono caotici (ad esempio, scansioni non OCR, tabelle divise in caratteri illeggibili)?
Suddivisione e indicizzazione
Blocchi di testo troppo corti → perdita di contesto; troppo lunghi → introduzione di rumore.
Il modello di embedding è adatto al tuo dominio? (I modelli generici potrebbero funzionare male su terminologia legale).
Strategia di recupero
Usare solo ricerca vettoriale potrebbe ignorare parole chiave esatte (ad esempio, modelli di prodotto).
Non aver applicato un re-ranking può far sì che nei primi risultati compaiano contenuti non pertinenti.
Fase di generazione
Il prompt richiede esplicitamente "rispondi solo in base alle informazioni fornite, se non basta rifiuta"?
La capacità del modello è sufficiente? (I modelli piccoli tendono a perdere dettagli in contesti lunghi).

Un errore comune: Attribuire la bassa accuratezza direttamente all'insufficiente capacità dell'LLM, ma in realtà la maggior parte dei problemi risiede nel "recupero" e "progettazione del prompt".

IV. Come "valutare" correttamente l'accuratezza – alcuni atteggiamenti chiave nella pratica

1. Stabilire benchmark e aspettative ragionevoli

Per settori ad alto rischio (diagnosi medica, consulenza legale), anche il 90% di accuratezza non è sufficiente; è necessario introdurre revisione umana o verifica multipla.
Per scenari a basso rischio (supporto clienti di base, ricerca di conoscenza interna), l'80% di accuratezza con una risposta amichevole "non lo so" può già migliorare notevolmente l'efficienza.

2. Non puntare al 100%, ma a un'"accuratezza verificabile"

Far sì che il sistema alleghi automaticamente le fonti (citando l'articolo e il paragrafo).
L'utente può verificare autonomamente l'originale; anche se la risposta occasionalmente sbaglia, la trasparenza genera fiducia.
Aggiungere punteggio di confidenza, e con punteggio basso avvisare attivamente "Questa risposta ha bassa affidabilità, si consiglia di consultare il documento originale".

3. Considerare l'accuratezza come un obiettivo di ottimizzazione continua, non un traguardo una tantum

Creare una pipeline di valutazione: periodicamente estrarre un campione di domande etichettate manualmente e valutare automaticamente il tasso di recupero e la fedeltà di generazione.
Utilizzare strumenti come RAGAS, TruLens per valutazioni sistematiche, invece di basarsi su pochi casi a sensazione.
Ajustare continuamente in base ai casi negativi: modalità di suddivisione, parametri del recuperatore, modello di re-ranking, prompt.

4. Distinguere tra "errore del sistema" e "disaccordo con lo standard umano"

A volte la risposta data dal sistema non corrisponde alle aspettative dell'utente, ma secondo il knowledge base è corretta (perché il knowledge base stesso ha limiti o controversie).
In tal caso, bisogna definire: l'accuratezza si basa sui "fatti del knowledge base" o sui "fatti universalmente riconosciuti"?

Riepilogo finale

L'accuratezza di un sistema di domande e risposte basato su conoscenza non è un indicatore statico di perfezione, ma un valore composito che riflette "copertura della conoscenza + precisione del recupero + fedeltà di generazione + capacità di rifiuto". Nel valutarla, bisogna riconoscere razionalmente che la tecnologia attuale non può essere perfetta, ma anche, attraverso progetti come riferimenti alle fonti, indicazioni di confidenza e collaborazione uomo-macchina, far sì che il sistema abbia un valore pratico nel business.