Interviu AI Seria 9: Cum privim acuratețea sistemelor de întrebări și răspunsuri?

Acuratețea este linia vitală a sistemelor de întrebări și răspunsuri, mai ales atunci când încerci să le aplici în scenarii serioase (cum ar fi medicină, drept, suport intern pentru companii). Părerea mea poate fi rezumată astfel: Acuratețea este un concept multidimensional, nu poate fi privită doar ca un număr, ci trebuie evaluată în contextul capacității sistemului, dificultății sarcinii și costului erorilor.

Mai jos, voi detalia în patru niveluri:

I. Acuratețea nu este doar „corect/greșit”

În problemele clasice de clasificare (cum ar fi recunoașterea imaginilor), acuratețea este clară. Dar sistemele de întrebări și răspunsuri sunt diferite; dimensiunile comune includ:

Dimensiune	Semnificație	Exemplu de evaluare
Rata de regăsire	Poate sistemul să găsească în baza de cunoștințe documentele care conțin răspunsul corect?	Utilizatorul întreabă „Veniturile companiei A în 2024”, poate sistemul regăsi acel raport financiar care conține datele?
Fidelitatea generării	Răspunsul generat este bazat strict pe conținutul regăsit, fără a inventa?	Materialul regăsit nu menționează „rata de creștere”, dar modelul spune „a crescut cu 5%” → nefidelitate
Corectitudinea răspunsului	Răspunsul final este consistent cu faptele (sau răspunsul de referință)?	Răspunsul corect este „4,2 miliarde”, modelul outputează „4,2 miliarde” sau „aproximativ 4,2 miliarde de yuani” poate fi considerat corect
Rata de refuz	Când baza de cunoștințe nu are informațiile relevante, poate sistemul spune „nu știu” activ, în loc să ghicească?	Când regăsirea este goală sau încrederea este scăzută, outputează „Ne pare rău, nu s-au găsit informații relevante”

Un sistem poate avea o rată de regăsire foarte mare (găsește întotdeauna paragrafe relevante), dar o fidelitate a generării foarte scăzută (întotdeauna adaugă detalii), iar în final acuratețea totală rămâne slabă. Prin urmare, când privim acuratețea, trebuie mai întâi să clarificăm ce etapă măsurăm.

II. În stadiul actual al tehnologiei, cât de mare poate fi acuratețea sistemelor RAG?

Nu există un număr universal, dar ne putem referi la cercetări și practici publice:

Întrebări simple factuale (un singur salt, răspunsul apare direct într-un paragraf):
Rata de regăsire poate ajunge la 90-98% (în funcție de calitatea bazei de cunoștințe și a regăsitorului), fidelitatea generării poate fi peste 95% cu prompt-uri bine proiectate, iar acuratețea totală poate fi între 85-95%.
Raționament cu mai multe salturi (necesită combinarea informațiilor din două sau mai multe surse diferite):
Acuratețea regăsirii scade brusc la 50-70%, iar corectitudinea răspunsurilor generate poate fi doar 40-60%. Aceasta este principala dificultate a RAG-ului actual.
Domeniu deschis + bază de cunoștințe zgomotoasă (cum ar fi pagini web masive):
Acuratețea scade semnificativ, deoarece regăsirea poate introduce zgomot, iar modelul este ușor perturbat.

Concluzie: În medii controlate (curate, structurate, cu granularitatea documentelor potrivită), RAG poate atinge o acuratețe de peste 90%; dar în scenarii complexe, deschise, cu raționament în mai mulți pași, acuratețea este adesea nesatisfăcătoare și necesită multă optimizare.

III. Factorii principali care influențează acuratețea

Dacă descoperi că acuratețea sistemului tău RAG nu este ideală, poți investiga de obicei din următoarele patru etape:

Baza de cunoștințe în sine
Datele sunt învechite, incomplete sau chiar eronate?
Documentele sunt haotice (de exemplu, scanări neOCR-ate, tabele rupte în caractere ilizibile)?
Segmentarea și indexarea
Blocurile de text sunt prea scurte → pierderea contextului; prea lungi → includ zgomot.
Modelul de încorporare este potrivit pentru domeniul tău (modelele generale pot avea performanțe slabe în termeni juridici)?
Strategia de regăsire
Folosirea doar a regăsirii vectoriale poate ignora cuvinte cheie exacte (cum ar fi numerele de model ale produselor).
Lipsa reordonării poate duce la includerea de conținut irelevant în primele rezultate.
Etapa de generare
Prompt-ul specifică clar „răspunde doar pe baza materialelor furnizate, dacă nu este suficient, refuză”?
Capacitatea modelului este suficientă (modelele mici pot ignora ușor detaliile din context lung)?

O concepție greșită comună: acuzează direct capacitatea insuficientă a LLM-ului pentru acuratețea scăzută, dar de fapt majoritatea problemelor provin din „regăsire” și „proiectarea prompt-ului”.

IV. Cum să „privim” corect acuratețea – câteva atitudini cheie în practică

1. Stabilește repere și așteptări rezonabile

Pentru domenii cu risc ridicat (diagnostic medical, sfaturi juridice), chiar și 90% acuratețe este insuficientă; trebuie introdusă verificare umană sau validare multiplă.
Pentru scenarii cu risc scăzut (asistență clienți de bază, căutare internă de cunoștințe), 80% acuratețe împreună cu un răspuns prietenos „nu știu” poate deja îmbunătăți semnificativ eficiența.

2. Nu urmări 100%, urmărește „acuratețe verificabilă”

Fă ca sistemul să atașeze automat sursele citate (care articol, care paragraf).
Utilizatorul poate vedea textul original pentru verificare. Chiar dacă răspunsul ocazional este greșit, transparența poate construi încredere.
Adaugă scor de încredere, iar când scorul este scăzut, menționează activ „Acest răspuns are o fiabilitate scăzută, vă sugerăm să consultați documentul original”.

3. Tratează acuratețea ca pe un obiect de optimizare continuă, nu ca pe un scop unic

Creează o conductă de evaluare: extrage periodic un set de întrebări adnotate manual, evaluează automat rata de regăsire și fidelitatea generării.
Folosește instrumente precum RAGAS, TruLens pentru evaluare sistematică, nu te baza pe câteva cazuri izolate.
Pe baza cazurilor proaste, ajustează continuu: metoda de segmentare, parametrii regăsitorului, modelul de reordonare, prompt-ul.

4. Distinge între „eroare a sistemului” și „inconsistență a standardelor umane”

Uneori, răspunsul sistemului diferă de așteptările utilizatorului, dar conform bazei de cunoștințe este de fapt corect (deoarece baza de cunoștințe are limitări sau controverse).
Aici trebuie să definim: acuratețea se bazează pe „faptele din baza de cunoștințe” sau pe „faptele recunoscute extern”?

Concluzie finală

Acuratețea unui sistem de întrebări și răspunsuri nu este un indicator static de 100%, ci o valoare compusă care reflectă „acoperirea cunoștințelor + precizia regăsirii + fidelitatea generării + capacitatea de refuz”. Atunci când o privim, trebuie să recunoaștem rațional că tehnologia actuală nu poate atinge perfecțiunea, dar prin citarea surselor, indicarea gradului de încredere și colaborarea om-mașină, putem aduce valoare reală în aplicații.