← 返回列表

AI serija intervjua 9: Kako sagledati tačnost sistema za odgovaranje na pitanja?

Tačnost je ključna odlika sistema za odgovaranje na pitanja, posebno kada se pokušava primijeniti u ozbiljnim scenarijima (poput medicine, prava, interne podrške preduzeća). Moje viđenje može se sažeti na sljedeći način: Tačnost je višedimenzionalni koncept, ne treba gledati samo jedan broj, već je treba kombinirati sa sposobnostima sistema, složenošću zadatka i troškom greške za sveobuhvatnu procjenu.

U nastavku se razlaže na četiri nivoa:


1. Tačnost nije samo „tačno/pogrešno“

Kod tradicionalnih problema klasifikacije (poput prepoznavanja slika) tačnost je jasna. Ali kod sistema za odgovaranje na pitanja, uobičajene dimenzije uključuju:

Dimenzija Značenje Primjer evaluacije
Stopa pogađanja pretrage Može li sistem pronaći dokument sa tačnim odgovorom iz baze znanja? Korisnik pita „prihod kompanije A u 2024.”, može li sistem pronaći onaj dio izvještaja koji sadrži te podatke?
Vjernost generisanja Da li je odgovor koji generiše model strogo zasnovan na pronađenom sadržaju, bez izmišljanja? Pronađeni materijal ne spominje „stopu rasta”, ali model kaže „porastao za 5%” → nevjerno
Ispravnost odgovora Da li je konačni odgovor u skladu sa činjenicama (ili referentnim odgovorom)? Tačan odgovor je „4,2 milijarde”, model ispisuje „4,2 milijarde” ili „otprilike 4,2 milijarde RMB” može se smatrati tačnim
Stopa odbijanja Kada baza znanja ne sadrži relevantne informacije, može li sistem aktivno reći „ne znam” umjesto da nagađa? Kada je pretraga prazna ili je povjerenje nisko, ispisuje „Izvini, nisam pronašao relevantne informacije”

Sistem može imati visoku stopu pogađanja pretrage (uvijek pronađe relevantne paragrafe), ali vrlo nisku vjernost generisanja (uvijek doda svoje), tako da konačna tačnost i dalje može biti loša. Stoga, kada sagledavate tačnost, prvo morate jasno odrediti koji aspekt mjerite.


2. Pod trenutnim nivoom tehnologije, kolika može biti tačnost RAG sistema?

Ne postoji jedinstven broj, ali možemo se osloniti na neka javna istraživanja i prakse:

  • Jednostavni činjenični QA (jedan skok, odgovor je direktno u jednom paragrafu):
    Stopa pogađanja pretrage može doseći 90-98% (zavisi od kvaliteta baze znanja i pretraživača), vjernost generisanja uz pažljivo osmišljene upite može biti 95%+, a ukupna tačnost između 85-95%.
  • Višestepeno zaključivanje (potrebno kombinirati informacije iz dva ili više paragrafa):
    Tačnost pretrage pada na 50-70%, a ispravnost generisanog odgovora može biti samo 40-60%. Ovo je trenutna glavna poteškoća RAG-a.
  • Otvoreni domen + bučna baza znanja (poput ogromnog broja web stranica):
    Tačnost značajno opada jer pretraga može unijeti šum, a model se lako ometa.

Zaključak: U kontrolisanom okruženju (čist, strukturiran, odgovarajuća granularnost dokumenata) RAG može postići tačnost od preko 90%; ali u složenim, otvorenim scenarijima koji zahtijevaju višestruko zaključivanje, tačnost često nije zadovoljavajuća i zahtijeva mnogo optimizacije.


3. Ključni faktori koji utiču na tačnost

Ako primijetite da tačnost vašeg RAG sistema nije idealna, obično možete provjeriti sljedeća četiri aspekta:

  1. Sama baza znanja
  2. Jesu li podaci zastarjeli, nepotpuni ili čak pogrešni?
  3. Jesu li dokumenti haotični (poput skeniranih dokumenata bez OCR-a, tabela razbijenih u besmislice)?

  4. Segmentacija i indeksiranje

  5. Previše kratki dijelovi teksta → gubitak konteksta; predugi dijelovi → unošenje šuma.
  6. Da li je model ugrađivanja prilagođen vašem domenu (generički modeli mogu loše raditi na pravnim terminima)?

  7. Strategija pretrage

  8. Samo vektorska pretraga može zanemariti precizne ključne riječi (poput modela proizvoda).
  9. Izostanak rerankinga dovodi do miješanja irelevantnog sadržaja u prvim rezultatima.

  10. Faza generisanja

  11. Da li upit jasno zahtijeva „odgovaraj samo na osnovu pruženog materijala, odbij ako nije dovoljno”?
  12. Da li je model dovoljno sposoban (mali modeli lako zanemaruju detalje u dugom kontekstu)?

Uobičajena zabluda: Niska tačnost se direktno pripisuje nedovoljnoj sposobnosti LLM-a, ali zapravo većina problema leži u „pretrazi” i „dizajnu upita”.


4. Kako ispravno „sagledati” tačnost – nekoliko ključnih stavova u praksi

1. Postaviti razumne osnove i očekivanja

  • Za visokorizična područja (medicinska dijagnostika, pravni savjeti) čak i 90% tačnosti nije dovoljno; mora se uvesti ljudska revizija ili višestruka provjera.
  • Za niskorizične scenarije (pomoć korisničkoj podršci, interna pretraga znanja) 80% tačnosti uz prijateljski odgovor „ne znam” već može znatno povećati efikasnost.

2. Ne težiti 100%, već „provjerljivoj tačnosti”

  • Neka sistem automatski priloži izvore (koji članak, koji paragraf).
    Korisnik može sam provjeriti originalni tekst; čak i ako odgovor povremeno pogriješi, transparentnost gradi povjerenje.
  • Dodajte ocjenu povjerenja; pri niskom rezultatu aktivno naznačite „ovaj odgovor je nepouzdan, preporučuje se provjera originalnog dokumenta”.

3. Tretirajte tačnost kao objekt kontinuirane optimizacije, a ne jednokratni cilj

  • Uspostavite evaluacijski pipeline: redovno uzimajte set ručno označenih pitanja i automatski procjenjujte stopu pogađanja pretrage i vjernost generisanja.
  • Koristite alate poput RAGAS, TruLens za sistematsku evaluaciju, umjesto da se oslanjate na nekoliko slučajeva.
  • Na osnovu loših slučajeva stalno prilagođavajte: način segmentacije, parametre pretraživača, model rerankinga, upite.

4. Razlikovati „grešku sistema” i „neusaglašenost sa ljudskim standardom”

  • Ponekad sistem daje odgovor koji se razlikuje od očekivanja korisnika, ali je tačan prema podacima u bazi znanja (jer baza ima ograničenja ili kontroverze).
    Tada treba definisati: da li se tačnost mjeri prema „činjenicama iz baze znanja” ili prema „eksterno priznatim činjenicama”?

Konačni zaključak

Tačnost sistema za odgovaranje na pitanja nije statični indikator savršenstva, već sveobuhvatna vrijednost koja odražava „pokrivenost znanja + preciznost pretrage + vjernost generisanja + sposobnost odbijanja”. Kada je sagledavate, treba racionalno shvatiti da trenutna tehnologija ne može biti savršena, ali kroz dizajn poput citiranja izvora, indikatora povjerenja, ljudsko-mašinske saradnje, možete ostvariti stvarnu vrijednost u poslovanju.

评论

暂无已展示的评论。

发表评论(匿名)