AI serijos interviu 9: Kaip vertinti žinių atsakymo sistemos tikslumą?

Tikslumas yra pagrindinė žinių atsakymo sistemų gyvybinė linija, ypač kai bandote jas pritaikyti rimtose srityse (pvz., medicina, teisė, įmonės vidaus pagalba). Mano požiūrį galima apibendrinti taip: Tikslumas yra daugiamatis konceptas, negalima žiūrėti tik į vieną skaičių, o reikia vertinti kartu su sistemos galimybėmis, užduoties sudėtingumu ir klaidų toleravimo kaina.

Toliau išplėsiu iš keturių lygmenų:

I. Tikslumas nėra tik „teisingai / neteisingai“

Tradicinių klasifikavimo problemų (pvz., vaizdų atpažinimo) tikslumas yra aiškus. Tačiau žinių atsakymo sistemos skiriasi. Dažni matmenys:

Matmuo	Reikšmė	Vertinimo pavyzdys
Paieškos pataikymo rodiklis	Ar sistema gali iš žinių bazės rasti dokumento dalį, kurioje yra teisingas atsakymas?	Vartotojas klausia „2024 m. A įmonės pajamos“, ar sistema gali rasti tą finansinės ataskaitos dalį su duomenimis?
Generavimo ištikimybė	Ar modelio sugeneruotas atsakymas yra griežtai pagrįstas rastu turiniu, o ne sukurtas?	Paieškos medžiaga nemini „augimo tempo“, bet modelis sako „padidėjo 5%“ → neištikima
Atsakymo teisingumas	Ar galutinis atsakymas sutampa su faktais (arba atskaitos atsakymu)?	Teisingas atsakymas yra „4,2 mlrd.“, modelio išvestis „4,2 mlrd.“ arba „apie 4,2 mlrd. RMB“ gali būti laikoma teisinga
Atsisakymo rodiklis	Kai žinių bazėje nėra atitinkamos informacijos, ar sistema gali pasakyti „nežinau“ vietoj spėliojimo?	Kai paieška tuščia arba pasitikėjimas žemas, išvesti „Atsiprašome, nerasta atitinkamos informacijos“

Sistema gali turėti aukštą paieškos pataikymo rodiklį (visada rasti atitinkamą pastraipą), bet žemą generavimo ištikimybę (visada pridėti detalių), todėl galutinis tikslumas vis tiek prastas. Todėl vertinant tikslumą pirmiausia reikia aiškiai nustatyti, kurį etapą matuojate.

II. Esant dabartiniam technologijos lygiui, koks gali būti RAG sistemos tikslumas?

Nėra vienodo skaičiaus, bet galima remtis kai kuriais viešais tyrimais ir praktika:

Paprastas faktinis klausimas-atsakymas (vienas šuolis, atsakymas tiesiogiai pateikiamas vienoje medžiagos dalyje):
Paieškos pataikymo rodiklis gali siekti 90-98% (priklausomai nuo žinių bazės kokybės ir paieškos įrankio), generavimo ištikimybė gerai suprojektuotų nurodymų atveju gali būti 95%+, bendras tikslumas gali būti tarp 85-95%.
Kelių šuolių samprotavimai (reikia sujungti informaciją iš dviejų ar daugiau skirtingų medžiagų):
Paieškos tikslumas smarkiai sumažėja iki 50-70%, atsakymo teisingumas gali būti tik 40-60%. Tai šiuo metu pagrindinis RAG sunkumas.
Atvira sritis + triukšminga žinių bazė (pvz., didžiulis tinklalapių kiekis):
Tikslumas ženkliai krinta, nes paieška gali įtraukti triukšmą, modelis lengvai blaškomas.

Išvada: kontroliuojamoje aplinkoje (švari, struktūrizuota, tinkamo dokumento smulkumo) RAG gali pasiekti daugiau nei 90% tikslumą; tačiau sudėtingose, atvirose, daug žingsnių reikalaujančiose srityse tikslumas dažnai nuvilia ir reikalauja daug optimizavimo.

III. Pagrindiniai veiksniai, įtakojantys tikslumą

Jei pastebite, kad jūsų RAG sistemos tikslumas nepatenkinamas, paprastai galima tikrinti šias keturias grandis:

Pati žinių bazė
Ar duomenys pasenę, neišsamūs ar net klaidingi?
Ar dokumentai netvarkingi (pvz., nuskenuoti ne OCR, lentelės sugadintos)?
Skirstymas ir indeksavimas
Teksto blokai per trumpi → prarandamas kontekstas; per ilgi → įmaišomas triukšmas.
Ar įterpimo modelis tinka jūsų sričiai (bendras modelis teisės terminologijoje gali veikti prastai)?
Paieškos strategija
Vien vektorinė paieška gali nepastebėti tikslių raktinių žodžių (pvz., gaminio modelio).
Neatlikus papildomo rikiavimo į pirmuosius rezultatus gali patekti nesusijęs turinys.
Generavimo etapas
Ar nurodymų raktiniai žodžiai aiškiai reikalauja „atsakyti tik pagal pateiktą medžiagą, jei nepakanka, atsisakyti“?
Ar modelio pajėgumas pakankamas (maži modeliai linkę praleisti ilgo konteksto detales)?

Dažna klaidinga nuomonė: kaltinti LLM pajėgumo stoką dėl žemo tikslumo, tačiau iš tikrųjų dauguma problemų kyla iš „paieškos“ ir „nurodymų dizaino“.

IV. Kaip teisingai „vertinti“ tikslumą – keletas svarbių nuostatų praktikoje

1. Nustatykite pagrįstą atskaitos tašką ir lūkesčius

Didelės rizikos srityse (medicininė diagnostika, teisinės konsultacijos) net 90% tikslumo nepakanka, būtina įtraukti žmogaus peržiūrą ar daugkartinį patikrinimą.
Mažos rizikos scenarijuose (klientų aptarnavimo pirmoji pagalba, vidinė žinių paieška) 80% tikslumas kartu su draugišku „nežinau“ atsakymu jau gali žymiai padidinti efektyvumą.

2. Nesiekite 100%, siekite „patikrinamo tikslumo“

Leiskite sistemai automatiškai pridėti šaltinio nuorodas (koks straipsnis, kuri pastraipa).
Vartotojas gali pats patikrinti originalų tekstą, net jei atsakymas kartais klaidingas, skaidrumas sukuria pasitikėjimą.
Pridėkite pasitikėjimo balą, žemo balo atveju aktyviai nurodykite „šis atsakymas gali būti nepatikimas, rekomenduojame peržiūrėti originalų dokumentą“.

3. Vertinkite tikslumą kaip nuolat tobulintiną objektą, o ne vienkartinį tikslą

Sukurkite vertinimo srautą: reguliariai paimkite partiją žmonių pažymėtų klausimų, automatiškai vertinkite paieškos pataikymo rodiklį ir generavimo ištikimybę.
Naudokite RAGAS, TruLens ir panašius įrankius sisteminiam vertinimui, o ne sprendimus pagal kelis atvejus.
Remdamiesi blogais atvejais nuolat koreguokite: skirstymo būdą, paieškos parametrus, rikiavimo modelį, nurodymus.

4. Skirkite „sistemos klaidą“ nuo „žmogaus standartų neatitikimo“

Kartais sistemos pateiktas atsakymas skiriasi nuo vartotojo lūkesčių, bet pagal žinių bazės medžiagą jis yra teisingas (nes pati žinių bazė turi ribotumų ar prieštaravimų).
Tokiu atveju reikia apibrėžti: ar tikslumas vertinamas pagal „žinių bazės faktus“, ar pagal „išoriniuose šaltiniuose pripažintus faktus“?

Galutinė santrauka

Žinių atsakymo sistemos tikslumas nėra statinis tobulos vertės rodiklis, o kompleksinė vertė, atspindinti „žinių aprėptį + paieškos tikslumą + generavimo ištikimybę + gebėjimą atsisakyti“. Vertindami jį, turite racionaliai suprasti, kad dabartinė technologija negali būti tobula, tačiau naudodami šaltinių nuorodas, pasitikėjimo rodiklius, žmogaus ir mašinos bendradarbiavimą ir pan., galite suteikti realią vertę verslui.