AI serija intervjujev 9: Kako gledati na natančnost sistema za odgovarjanje na vprašanja?

Natančnost je osrednja življenjska linija sistema za odgovarjanje na vprašanja, zlasti ko ga poskušate uporabiti v resnih scenarijih (kot so medicina, pravo, notranja podpora podjetja). Moj pogled lahko povzamem takole: Natančnost je večdimenzionalen koncept, ki ga ne smemo gledati samo skozi eno številko, temveč ga je treba celovito oceniti v povezavi z zmogljivostjo sistema, težavnostjo naloge in stroški napak.

Spodaj ga razčlenjujem na štirih ravneh:

1. Natančnost ni le »pravilno/napačno«

Pri tradicionalnih klasifikacijskih problemih (kot je prepoznavanje slik) je natančnost jasna. Toda pri sistemih za odgovarjanje na vprašanja so pogoste poddimenzije:

Dimenzija	Pomen	Primer ocenjevanja
Zadetnost iskanja	Ali lahko sistem iz baze znanja najde dokument, ki vsebuje pravilen odgovor?	Uporabnik vpraša »Prihodki podjetja A za leto 2024«, ali sistem najde tisti del finančnega poročila s tem podatkom?
Zvestoba generiranja	Ali je generirani odgovor strogo utemeljen na najdeni vsebini in ne izmišljen?	Najdeno gradivo ne omenja »stopnje rasti«, vendar model reče »rast je 5%« → nezvesto
Pravilnost odgovora	Ali je končni odgovor skladen z dejstvi (ali referenčnim odgovorom)?	Pravilen odgovor je »4,2 milijarde«, model izpiše »4,2 milijarde« ali »približno 4,2 milijarde RMB« – oboje se lahko šteje za pravilno
Stopnja zavrnitve	Ali sistem, ko v bazi znanja ni ustreznih informacij, aktivno reče »ne vem«, namesto da bi ugibal?	Ko je iskanje prazno ali je zaupanje nizko, izpiše »Oprostite, nisem našel ustreznih informacij«

Sistem ima lahko visoko zadetnost iskanja (vedno najde ustrezne odstavke), vendar zelo nizko zvestobo generiranja (vedno doda svoje), zato je končna natančnost še vedno slaba. Zato je treba pri obravnavi natančnosti najprej določiti, kateri korak merite.

2. Kakšno natančnost lahko trenutno dosežejo RAG sistemi?

Ni enotne številke, vendar se lahko sklicujemo na nekatere javne raziskave in prakse:

Preprosta dejanska vprašanja (en skok, odgovor je neposredno v enem odstavku):
Zadetnost iskanja lahko doseže 90-98% (odvisno od kakovosti baze znanja in iskalnika), zvestoba generiranja ob skrbno oblikovanih navodilih lahko preseže 95%, skupna natančnost pa je med 85-95%.
Večskokovno sklepanje (potrebna kombinacija informacij iz dveh ali več različnih odstavkov):
Natančnost iskanja pade na 50-70%, pravilnost generiranih odgovorov pa je lahko le 40-60%. To je trenutno glavna težava RAG.
Odprta domena + šumna baza znanja (npr. ogromno spletnih strani):
Natančnost se znatno zmanjša, ker iskanje lahko vnese šum in model je zlahka moten.

Zaključek: V nadzorovanem okolju (čisti, strukturirani dokumenti z ustrezno granularnostjo) lahko RAG doseže več kot 90% natančnost; v zapletenih, odprtih scenarijih, ki zahtevajo večstopenjsko sklepanje, pa natančnost pogosto ni zadovoljiva in zahteva veliko optimizacije.

3. Ključni dejavniki, ki vplivajo na natančnost

Če ugotovite, da natančnost vašega RAG sistema ni idealna, običajno preverite naslednje štiri korake:

Sama baza znanja
Ali so podatki zastareli, nepopolni ali celo napačni?
Ali so dokumenti zmedeni (npr. skenirane kopije brez OCR, tabele razbite v nepovezano besedilo)?
Razdelitev in indeksiranje
Besedilni bloki so prerezani prekratko → izguba konteksta; predolgo → vsebujejo šum.
Ali je model vdelave primeren za vaše področje (splošni modeli so lahko slabi pri pravnih izrazih)?
Strategija iskanja
Uporaba samo vektorskega iskanja lahko spregleda natančne ključne besede (npr. številke modelov).
Brez ponovnega razvrščanja se v prvih rezultatih znajde nepovezana vsebina.
Korak generiranja
Ali navodila jasno zahtevajo »odgovori samo na podlagi podanih informacij, če ni dovolj, zavrni«?
Ali je zmogljivost modela zadostna (majhni modeli zlahka spregledajo podrobnosti v dolgem kontekstu)?

Pogosta napaka: Krivdo za nizko natančnost pripisati nezadostni zmogljivosti LLM, vendar je večina težav v »iskanju« in »oblikovanju navodil«.

4. Kako pravilno »gledati na« natančnost – nekaj ključnih stališč v praksi

1. Postavite realna merila in pričakovanja

Za visoko tvegana področja (medicinska diagnoza, pravni nasveti) tudi 90% natančnost ni dovolj; potreben je človeški pregled ali dodatna preverjanja.
Za nizko tvegane scenarije (osnovna podpora strankam, notranje iskanje znanja) lahko 80% natančnost skupaj s prijaznim »ne vem« odgovorom že znatno poveča učinkovitost.

2. Ne lovite 100%, lovite »preverljivo natančnost«

Sistem naj samodejno priloži vire (na kateri članek, kateri odstavek se sklicuje).
Uporabnik lahko vidi izvirno besedilo in sam preveri; tudi če odgovor občasno ni pravilen, preglednost gradi zaupanje.
Dodajte oceno zaupanja; pri nizki vrednosti aktivno opozorite »Ta odgovor ima nizko zanesljivost; priporočamo, da preverite izvirni dokument.«

3. Natančnost obravnavajte kot stalen predmet optimizacije, ne kot enkraten cilj

Vzpostavite evalvacijski cevovod: redno izberite sklop ročno označenih vprašanj in samodejno ocenite zadetnost iskanja ter zvestobo generiranja.
Uporabite orodja, kot so RAGAS, TruLens, za sistematično vrednotenje, namesto da se zanašate na nekaj primerov.
Na podlagi slabih primerov nenehno prilagajajte način razdelitve, parametre iskalnika, model ponovnega razvrščanja in navodila.

4. Razlikujte med »sistemsko napako« in »neskladjem s človeškimi standardi«

Včasih sistem poda odgovor, ki se razlikuje od uporabnikovega pričakovanja, vendar je glede na podatke v bazi znanja dejansko pravilen (ker ima baza znanja omejitve ali sporne vsebine).
Takrat je treba opredeliti: ali natančnost merimo glede na »dejstva v bazi znanja« ali glede na »splošno priznana dejstva«?

Končni povzetek

Natančnost sistema za odgovarjanje na vprašanja ni statičen kazalnik popolnosti, temveč celovita vrednost, ki odraža »pokritost znanja + natančnost iskanja + zvestobo generiranja + sposobnost zavrnitve«. Pri obravnavi tega je treba racionalno priznati, da trenutna tehnologija ne more biti popolna, hkrati pa z zasnovami, kot so navajanje virov, opozorila o zaupanju in sodelovanje človeka in stroja, dejansko ustvariti vrednost v poslovanju.