Intervistë e serisë AI 9: Si e shohim saktësinë e sistemeve të pyetje-përgjigjeve?

Saktësia është shtylla kurrizore e sistemeve të pyetje-përgjigjeve, veçanërisht kur përpiqeni t'i zbatoni ato në skenarë seriozë (si mjekësia, ligji, mbështetja e brendshme e ndërmarrjeve). Këndvështrimi im mund të përmblidhet si: Saktësia është një koncept shumëdimensional, që nuk duhet parë thjesht si një numër i vetëm, por duhet vlerësuar në kombinim me aftësitë e sistemit, vështirësinë e detyrës dhe koston e gabimeve.

Më poshtë do të shpalos këtë në katër nivele:

I. Saktësia nuk është thjesht "përgjigje e saktë/gabuar"

Për problemet tradicionale të klasifikimit (si njohja e imazheve), saktësia është e qartë. Por sistemet e pyetje-përgjigjeve janë të ndryshme, dimensionet e zakonshme të ndarjes përfshijnë:

Dimensioni	Kuptimi	Shembull vlerësimi
Shkalla e goditjes së kërkimit	A mundet sistemi të gjejë bllokun e dokumentit që përmban përgjigjen e saktë nga baza e njohurive?	Përdoruesi pyet "Të ardhurat e kompanisë A për vitin 2024", a mundet sistemi të kërkojë atë segment të raportit financiar që përmban të dhënat?
Besnikëria e gjenerimit	A bazohet përgjigja e modelit rreptësisht në përmbajtjen e kërkuar, dhe jo e shpikur?	Materiali i kërkuar nuk përmend "normën e rritjes", por modeli thotë "u rrit me 5%" → jobesnik
Korrektësia e përgjigjes	A përputhet përgjigja përfundimtare me faktin (ose përgjigjen referuese)?	Përgjigja e saktë është "4.2 miliardë", modeli nxjerr "4.2 miliardë" ose "rreth 4.2 miliardë RMB" mund të konsiderohet e saktë
Shkalla e refuzimit	Kur baza e njohurive nuk ka informacion përkatës, a mundet sistemi të thotë "nuk di" në vend që të hamendësojë?	Kur kërkimi është bosh ose besimi është i ulët, nxjerr "Na vjen keq, nuk u gjet informacion përkatës"

Një sistem mund të ketë shkallë të lartë goditjeje në kërkim (gjithmonë gjen paragrafë përkatës), por shkallë të ulët besnikërie në gjenerim (gjithmonë shton diçka), duke rezultuar në saktësi të dobët. Prandaj, kur shikojmë saktësinë, duhet së pari të përcaktojmë se cilin hallkë po matim.

II. Në nivelin aktual teknologjik, sa mund të arrijë saktësia e sistemeve RAG?

Nuk ka një numër të unifikuar, por mund të referohemi në disa studime dhe praktika publike:

Pyetje-përgjigje të thjeshta faktike (një kërcim, përgjigja shfaqet direkt në një material):
Shkalla e goditjes së kërkimit mund të arrijë 90-98% (në varësi të cilësisë së bazës së njohurive dhe kërkuesit), besnikëria e gjenerimit me udhëzime të përshtatura mund të jetë 95%+, saktësia e përgjithshme mund të jetë 85-95%.
Arsyetimi me shumë kërcime (kërkon kombinimin e informacionit nga dy ose më shumë materiale të ndryshme):
Saktësia e kërkimit bie në 50-70%, korrektësia e përgjigjes mund të jetë vetëm 40-60%. Kjo është vështirësia kryesore e RAG aktual.
Domain i hapur + bazë njohurish e zhurmshme (si faqe interneti të shumta):
Saktësia bie ndjeshëm, sepse kërkimi mund të sjellë zhurmë dhe modeli ndikohet lehtë.

Përfundim: Në mjedis të kontrolluar (të pastër, të strukturuar, me madhësi të përshtatshme dokumenti), RAG mund të arrijë saktësi mbi 90%; por në skenarë kompleksë, të hapur dhe që kërkojnë arsyetim me shumë hapa, saktësia shpesh nuk është e kënaqshme dhe kërkon optimizim të madh.

III. Faktorët kryesorë që ndikojnë në saktësi

Nëse zbuloni se saktësia e sistemit tuaj RAG nuk është e mirë, zakonisht mund të verifikoni katër hallkat e mëposhtme:

Vetë baza e njohurive
A janë të dhënat të vjetruara, të paplota, apo me gabime?
A janë dokumentet të çrregullta (p.sh. skanime pa OCR, tabela të copëtuara në mënyrë të palexueshme)?
Ndarja dhe indeksimi
Copëzat e tekstit shumë të shkurtra → humbje konteksti; shumë të gjata → zhurmë.
A është modeli i ngulitjes i përshtatshëm për fushën tuaj (modelet e përgjithshme mund të performojnë keq në terma juridikë)?
Strategjia e kërkimit
Përdorimi vetëm i kërkimit vektorial mund të humbasë fjalë kyçe të sakta (si modele produkti).
Mungesa e rirenditjes çon në përzierje të përmbajtjeve të parëndësishme në rezultatet e para.
Hallka e gjenerimit
A kërkon udhëzimi në mënyrë të qartë "përgjigju vetëm bazuar në materialet e dhëna, nëse jo, refuzo"?
A është modeli i aftë (modelet e vogla e kanë të vështirë të mbajnë detaje nga konteksti i gjatë)?

Një keqkuptim i zakonshëm: fajësimi i drejtpërdrejtë i saktësisë së ulët te pamjaftueshmëria e LLM-së, por në fakt shumica e problemeve janë te "kërkimi" dhe "dizajni i udhëzimeve".

IV. Si të "shikojmë saktësinë" në mënyrë korrekte – disa qëndrime kyçe në praktikë

1. Vendosni bazamente dhe pritshmëri të arsyeshme

Për fusha me rrezik të lartë (diagnostikim mjekësor, këshilla ligjore), edhe 90% saktësi nuk mjafton, duhet të përfshihet rishikim njerëzor ose verifikim i shumëfishtë.
Për skenarë me rrezik të ulët (mbështetje klientësh, kërkim i brendshëm i njohurive), 80% saktësi së bashku me një përgjigje miqësore "nuk di" mund të rrisë ndjeshëm efikasitetin.

2. Mos kërkoni 100%, kërkoni "saktësi të verifikueshme"

Lëreni sistemin të bashkëngjisë automatikisht burimet (cili artikull, cila pjesë).
Përdoruesi mund të shohë origjinalin dhe ta verifikojë vetë; edhe nëse përgjigja herë pas here gabon, transparenca ndërton besim.
Shtoni vlerësim besueshmërie, kur rezultati është i ulët, tregoni në mënyrë aktive "Kjo përgjigje ka besueshmëri të ulët, ju rekomandojmë të kontrolloni dokumentin origjinal".

3. Trajtojeni saktësinë si objekt optimizimi të vazhdueshëm, jo si qëllim një herë

Krijoni pipelinë vlerësimi: në mënyrë periodike merrni një grumbull pyetjesh të anotuara nga njerëzit dhe vlerësoni automatikisht shkallën e goditjes së kërkimit dhe besnikërinë e gjenerimit.
Përdorni mjete si RAGAS, TruLens për vlerësim sistematik, jo vetëm disa raste.
Rregulloni vazhdimisht bazuar në rastet e këqija: mënyra e ndarjes, parametrat e kërkuesit, modeli i rirenditjes, udhëzimi.

4. Dalloni "gabimet e sistemit" nga "mospërputhja me standardet njerëzore"

Ndonjëherë përgjigja e sistemit ndryshon nga pritshmëria e përdoruesit, por sipas materialeve të bazës së njohurive është e saktë (sepse vetë baza e njohurive ka kufizime ose polemika).
Atëherë duhet përcaktuar: saktësia bazohet në "faktin e bazës së njohurive" apo "faktin e njohur nga jashtë"?

Përfundimi përfundimtar

Saktësia e një sistemi pyetje-përgjigjesh nuk është një tregues statik i perfeksionit, por një vlerë e integruar e "mbulimit të njohurive + saktësisë së kërkimit + besnikërisë së gjenerimit + aftësisë për të refuzuar". Kur e shikoni, duhet të pranoni racionalisht se teknologjia aktuale nuk mund të jetë perfekte, por gjithashtu përmes dizajnit si gjurmimi i burimeve, treguesit e besueshmërisë, bashkëpunimi njeri-makinë, të realizoni vlerën reale në biznes.