AI sērijas intervija 9: Kā vērtēt zināšanu jautājumu atbilžu sistēmu precizitāti?

Precizitāte ir zināšanu jautājumu atbilžu sistēmu dzīvības līnija, it īpaši, ja tās tiek izmantotas nopietnos scenārijos (piemēram, medicīnā, tiesību jomā, uzņēmuma iekšējā atbalstā). Mans viedokli var apkopot šādi: precizitāte ir daudzdimensionāls jēdziens, ko nevar aplūkot tikai kā vienu skaitli, bet jāvērtē, kombinējot sistēmas spējas, uzdevuma sarežģītību un kļūdu izmaksas.

Tālāk izklāsts četros līmeņos:

1. Precizitāte nav tikai “pareizi/nepareizi”

Tradicionālajās klasifikācijas problēmās (piemēram, attēlu atpazīšana) precizitāte ir skaidra. Bet zināšanu jautājumu atbilžu sistēmās izplatītās dimensijas ietver:

Dimensija	Nozīme	Novērtēšanas piemērs
Iegūšanas trāpījumu rādītājs	Vai sistēma spēj no zināšanu bāzes atrast dokumenta daļu, kas satur pareizo atbildi?	Lietotājs jautā “A uzņēmuma 2024. gada ieņēmumi”, vai sistēma atrod to finanšu pārskata daļu, kurā ir šie dati?
Ģenerēšanas uzticamība	Vai modeļa ģenerētā atbilde ir stingri balstīta uz iegūto saturu, nevis izdomāta?	Iegūtajā materiālā nav minēts “pieauguma temps”, bet modelis saka “pieauga par 5%” → neuzticami
Atbildes pareizība	Vai galīgā atbilde atbilst faktam (vai atsauces atbildei)?	Pareizā atbilde ir “4,2 miljardi”, modelis izvada “4,2 miljardi” vai “apmēram 4,2 miljardi rubļu” – to var uzskatīt par pareizu
Atteikšanās rādītājs	Ja zināšanu bāzē nav attiecīgas informācijas, vai sistēma aktīvi atbild “nezinu”, nevis min?	Ja iegūšana ir tukša vai ticamība zema, izvada “Atvainojiet, netika atrasta attiecīga informācija”

Sistēmai var būt augsts iegūšanas trāpījumu rādītājs (vienmēr atrod attiecīgo fragmentu), bet zema ģenerēšanas uzticamība (vienmēr pievieno informāciju), tāpēc precizitāte joprojām ir slikta. Tāpēc, vērtējot precizitāti, vispirms jānosaka, kuru posmu mēra.

2. Pašreizējā tehnoloģiju līmenī – cik precīzas ir RAG sistēmas?

Nav vienota skaitļa, bet var atsaukties uz zināmiem pētījumiem un praksi:

Vienkārši faktu jautājumi (viens lēciens, atbilde tieši vienā dokumenta daļā):
Iegūšanas trāpījumu rādītājs sasniedz 90-98% (atkarībā no zināšanu bāzes kvalitātes un iegūšanas rīka), ģenerēšanas uzticamība ar labi izstrādātiem norādījumiem sasniedz 95%+, un kopējā precizitāte var būt 85-95% robežās.
Daudzlēciena secinājumi (nepieciešams apvienot informāciju no divām vai vairākām dažādām dokumentu daļām):
Iegūšanas precizitāte strauji samazinās līdz 50-70%, un ģenerētās atbildes pareizība var būt tikai 40-60%. Tas ir galvenais RAG izaicinājums.
Atvērts domēns + trokšņaina zināšanu bāze (piem., milzīgs tīmekļa lapu apjoms):
Precizitāte ievērojami samazinās, jo iegūšana var ieviest troksni, un modeli viegli traucēt.

Secinājums: Kontrolētā vidē (tīra, strukturēta, atbilstoša dokumentu granularitāte) RAG var sasniegt vairāk nekā 90% precizitāti; bet sarežģītos, atvērtos un daudzpakāpju secinājumu scenārijos precizitāte bieži vien ir neapmierinoša un prasa daudz optimizācijas.

3. Precizitāti ietekmējošie pamatfaktori

Ja jūsu RAG sistēmas precizitāte ir neapmierinoša, parasti var pārbaudīt šādus četrus posmus:

Pati zināšanu bāze
Vai dati ir novecojuši, nepilnīgi vai pat kļūdaini?
Vai dokumenti ir nekārtīgi (piem., skenējumi nav OCR apstrādāti, tabulas ir sadalītas juceklīgi)?
Sadalīšana un indeksēšana
Teksta gabali ir pārāk īsi → tiek zaudēts konteksts; pārāk gari → tiek ienests troksnis.
Vai iegulšanas modelis ir piemērots jūsu jomai (vispārējais modelis var slikti darboties ar juridiskajiem terminiem)?
Iegūšanas stratēģija
Tikai vektoru iegūšana var ignorēt precīzus atslēgvārdus (piem., produkta modeļus).
Nav pielietota pārkārtošana, tādēļ pirmajos rezultātos ir neatbilstošs saturs.
Ģenerēšanas posms
Vai norādījumi skaidri prasa “atbildi tikai, pamatojoties uz sniegto informāciju, ja nepietiek – atsaki”?
Vai modeļa spējas ir pietiekamas (mazi modeļi viegli ignorē detaļas garā kontekstā)?

Bieža kļūda: zemu precizitāti uzreiz vainot LLM spēju trūkumā, bet patiesībā lielākā daļa problēmu ir “iegūšanā” un “norādījumu noformēšanā”.

4. Kā pareizi “vērtēt” precizitāti – vairākas būtiskas attieksmes praksē

1. Noteikt saprātīgas bāzes līnijas un cerības

Augsta riska jomās (medicīniskā diagnostika, juridiskie padomi) pat 90% precizitāte ir par maz; jāievieš cilvēka pārskatīšana vai vairākkārtēja pārbaude.
Zema riska scenārijos (klientu atbalsta pirmā līnija, iekšējā zināšanu meklēšana) 80% precizitāte kopā ar draudzīgu “nezinu” atbildi jau var būtiski uzlabot efektivitāti.

2. Netiekties uz 100%, bet uz “pārbaudāmu precizitāti”

Ļauj sistēmai automātiski pievienot avotus (norāda, kuru rakstu un kuru daļu tā izmanto).
Lietotājs var redzēt oriģinālu un pats pārbaudīt, tādējādi pat gadījuma kļūdas gadījumā caurspīdīgums veicina uzticību.
Ievieš ticamības novērtējumu; ja tas ir zems, aktīvi brīdina “Šī atbilde var būt mazāk ticama, iesakām pārbaudīt oriģinālo dokumentu”.

3. Precizitāti uzskatīt par nepārtrauktu optimizācijas objektu, nevis vienreizēju mērķi

Izveido novērtēšanas cauruļvadu: regulāri ņem partiju ar cilvēka marķētiem jautājumiem, automātiski novērtē iegūšanas trāpījumu rādītāju un ģenerēšanas uzticamību.
Izmanto tādus rīkus kā RAGAS, TruLens sistemātiskai novērtēšanai, nevis tikai uz dažiem piemēriem.
Pamatojoties uz sliktajiem gadījumiem, nepārtraukti pielāgo: sadalīšanas veidu, iegūšanas parametrus, pārkārtošanas modeli, norādījumus.

4. Nošķirt “sistēmas kļūdas” un “cilvēka standartu neatbilstību”

Dažkārt sistēmas sniegtā atbilde atšķiras no lietotāja cerētās, bet saskaņā ar zināšanu bāzē esošo informāciju tā ir pareiza (jo pašai zināšanu bāzei ir ierobežojumi vai strīdīgi jautājumi).
Šajā gadījumā jādefinē, vai precizitāte tiek mērīta pret “zināšanu bāzes faktiem” vai “ārēji atzītiem faktiem”.

Visbeidzot, kopsavilkums

Zināšanu jautājumu atbilžu sistēmu precizitāte nav statisks perfekts rādītājs, bet gan visaptverošs spēju rādītājs, kas ietver “zināšanu pārklājumu + iegūšanas precizitāti + ģenerēšanas uzticamību + atteikšanās spēju”. Lai to vērtētu, ir racionāli jāapzinās, ka pašreizējā tehnoloģija nespēj sasniegt pilnību, un vienlaikus, izmantojot tādus risinājumus kā avotu uzrādīšana, ticamības norādes un cilvēka-mašīnas sadarbība, sistēma var dot praktisku vērtību.