AI serija intervjua 9: Kako gledati na točnost sustava za odgovaranje na pitanja?

Točnost je ključna životna linija sustava za odgovaranje na pitanja, posebno kada ih se pokušava primijeniti u ozbiljnim scenarijima (poput medicine, prava, interne podrške). Moje mišljenje može se sažeti ovako: Točnost je višedimenzionalni koncept; ne gleda se samo jedna brojka, već se kombiniraju mogućnosti sustava, težina zadatka i trošak pogreške za sveobuhvatnu procjenu.

U nastavku se obrazlaže na četiri razine:

1. Točnost nije samo "točno/netočno"

Točnost tradicionalnih klasifikacijskih problema (npr. prepoznavanje slika) je jasna. Ali sustavi za odgovaranje na pitanja su drugačiji; uobičajene poddimenzije uključuju:

Dimenzija	Značenje	Primjer evaluacije
Stopa pogotka pretraživanja	Može li sustav iz baze znanja pronaći dokument s točnim odgovorom?	Korisnik pita "Prihod tvrtke A u 2024.", može li sustav pronaći taj financijski izvještaj?
Vjernost generiranja	Temelji li se generirani odgovor strogo na pronađenom sadržaju, a ne izmišlja?	Pretraženi materijal ne spominje "stopu rasta", ali model kaže "porastao za 5%" → nevjerno
Točnost odgovora	Podudara li se konačni odgovor s činjenicama (ili referentnim odgovorom)?	Točan odgovor je "4,2 milijarde", model izlazi "4,2 milijarde" ili "oko 4,2 milijarde RMB" smatra se točnim
Stopa odbijanja	Kada baza znanja nema relevantne informacije, može li sustav aktivno reći "ne znam" umjesto da nagađa?	Kada je pretraživanje prazno ili je pouzdanost niska, izlaz "Žao nam je, nema relevantnih informacija"

Sustav može imati visoku stopu pogotka pretraživanja (uvijek pronađe relevantne odlomke), ali nisku vjernost generiranja (uvijek dodaje), pa je konačna točnost i dalje loša. Stoga, kada gledate na točnost, prvo morate odrediti koju fazu mjerite.

2. Uz trenutnu tehnologiju, kolika je točnost RAG sustava?

Ne postoji jedinstvena brojka, ali se može osloniti na neka javna istraživanja i prakse:

Jednostavna činjenična pitanja (jedan skok, odgovor se izravno pojavljuje u jednom odlomku):
Stopa pogotka pretraživanja može doseći 90-98% (ovisno o kvaliteti baze znanja i pretraživaču), vjernost generiranja uz pažljivo osmišljene upite može biti 95%+, ukupna točnost može biti između 85-95%.
Višeskočno zaključivanje (potrebno kombinirati informacije iz dva ili više različitih odlomaka):
Točnost pretraživanja naglo pada na 50-70%, a točnost odgovora može biti samo 40-60%. To je glavni izazov trenutnog RAG-a.
Otvorena domena + bučna baza znanja (npr. ogroman broj web stranica):
Točnost značajno opada jer pretraživanje može unijeti šum, a model se lako ometa.

Zaključak: U kontroliranom okruženju (čisto, strukturirano, odgovarajuća granularnost dokumenata) RAG može postići više od 90% točnosti; ali u složenim, otvorenim scenarijima koji zahtijevaju višestruko zaključivanje, točnost je često nezadovoljavajuća i zahtijeva mnogo optimizacije.

3. Ključni čimbenici koji utječu na točnost

Ako otkrijete da točnost vašeg RAG sustava nije idealna, obično možete provjeriti sljedeće četiri faze:

Sama baza znanja
Jesu li podaci zastarjeli, nepotpuni ili čak pogrešni?
Jesu li dokumenti neuredni (npr. skenovi bez OCR-a, tablice razbijene u besmislene znakove)?
Segmentacija i indeksiranje
Jesu li dijelovi teksta prekratki → gubitak konteksta; predugački → unošenje šuma.
Je li model ugradnje prikladan za vaše područje (opći modeli mogu loše raditi s pravnim terminima)?
Strategija pretraživanja
Samo vektorsko pretraživanje može zanemariti precizne ključne riječi (npr. modeli proizvoda).
Nedostatak ponovnog rangiranja dovodi do miješanja nebitnog sadržaja u prvim rezultatima.
Faza generiranja
Je li upit jasno zahtijevao "odgovori samo na temelju danih materijala, ako nije dovoljno, odbij"?
Je li kapacitet modela dovoljan (mali modeli lako zanemaruju detalje u dugom kontekstu)?

Uobičajena zabluda: Niska točnost se krivnja na slabost LLM-a, ali zapravo većina problema leži u "pretraživanju" i "dizajnu upita".

4. Kako ispravno "gledati" na točnost – nekoliko ključnih stavova u praksi

1. Postavite razumne temelje i očekivanja

Za područja visokog rizika (medicinska dijagnoza, pravni savjeti), ni 90% točnosti nije dovoljno; mora se uvesti ljudska provjera ili višestruka potvrda.
Za scenarije niskog rizika (podrška korisnicima, interno pretraživanje znanja), 80% točnosti uz prijateljski odgovor "ne znam" već može znatno povećati učinkovitost.

2. Ne težite 100%, već "provjerljivoj točnosti"

Neka sustav automatski priloži izvore (koji članak, koji odlomak).
Korisnik može vidjeti izvorni tekst i sam provjeriti, čak i ako odgovor povremeno pogriješi, transparentnost gradi povjerenje.
Dodajte ocjenu pouzdanosti, pri niskoj ocjeni aktivno upozorite "ovaj odgovor ima nisku pouzdanost, preporučujemo da pogledate izvorni dokument".

3. Gledajte na točnost kao na kontinuiranu optimizaciju, a ne jednokratni cilj

Uspostavite evaluacijski pipeline: redovito uzimajte set ručno označenih pitanja, automatski procjenjujte stopu pogotka pretraživanja i vjernost generiranja.
Koristite alate poput RAGAS, TruLens za sustavnu evaluaciju, a ne samo nekoliko slučajeva.
Na temelju loših slučajeva kontinuirano prilagođavajte: način segmentacije, parametre pretraživača, model ponovnog rangiranja, upite.

4. Razlikujte "pogreške sustava" od "neslaganja s ljudskim standardima"

Ponekad je odgovor sustava drugačiji od očekivanja korisnika, ali je prema bazi znanja zapravo točan (jer baza znanja ima ograničenja ili kontroverze).
Tada treba definirati: je li točnost prema "činjenicama u bazi znanja" ili prema "vanjski priznatim činjenicama"?

Konačni sažetak

Točnost sustava za odgovaranje na pitanja nije statički maksimalni indikator, već sveobuhvatna vrijednost koja odražava "pokrivenost znanjem + preciznost pretraživanja + vjernost generiranja + sposobnost odbijanja". Kada je gledate, trebate racionalno shvatiti da trenutna tehnologija ne može biti savršena, ali kroz dizajn poput navođenja izvora, indikacije pouzdanosti, ljudsko-strojne suradnje, može stvarno donijeti vrijednost u poslovanju.