AI-seeria intervjuu 9: Kuidas suhtuda teadmusküsimuste vastamise süsteemide täpsusesse?

Täpsus on teadmusküsimuste vastamise süsteemide keskne eluliin, eriti kui püüad seda rakendada tõsistes valdkondades (nt meditsiin, õigus, ettevõtte sisetugi). Minu arvamuse võib kokku võtta järgmiselt: täpsus on mitmemõõtmeline mõiste, mida ei saa vaadata ühe numbri kaudu, vaid tuleb hinnata koos süsteemi võimekuse, ülesande raskuse ja veakuludega.

Allpool laiendan seda neljal tasandil:

1. Täpsus pole lihtsalt "õige/vale"

Traditsiooniliste klassifitseerimisülesannete (nt pildituvastus) täpsus on selge. Kuid teadmusküsimuste vastamise süsteemid on erinevad, levinud alajaotused hõlmavad:

Mõõde	Tähendus	Hindamise näide
Otsingu tabavus	Kas süsteem suudab teadmusbaasist leida dokumendiploki, mis sisaldab õiget vastust?	Kasutaja küsib "Firma A 2024. aasta tulud", kas süsteem suudab leida selle andmeid sisaldava finantsaruande lõigu?
Genereerimise täpsus	Kas mudeli loodud vastus põhineb rangelt otsitud materjalil, mitte ei ole välja mõeldud?	Otsitud materjal ei maini "kasvumäära", kuid mudel ütleb "kasv 5%" → ebatäpne
Vastuse õigsus	Kas lõplik vastus vastab faktidele (või võrdlusvastusele)?	Õige vastus on "4,2 miljardit", mudeli väljund "4,2 miljardit" või "umbes 4,2 miljardit RMB" loetakse õigeks
Keeldumise määr	Kui teadmusbaas ei sisalda asjakohast teavet, kas süsteem suudab aktiivselt öelda "ma ei tea", mitte arvata?	Kui otsing on tühi või usaldusväärsus madal, väljund "Vabandust, asjakohast teavet ei leitud"

Süsteem võib olla otsingu tabavuses kõrge (alati leiab asjakohase lõigu), kuid genereerimise täpsuses madal (alati lisab omalt poolt), lõplik täpsus on siiski halb. Seetõttu tuleb täpsuse vaatlemisel kõigepealt selgeks teha, millist etappi mõõdetakse.

2. Praeguse tehnoloogia tasemel, milline on RAG-süsteemide täpsus?

Ühtset arvu pole, kuid saab viidata mõnedele avalikele uuringutele ja praktikale:

Lihtsad faktiküsimused (ühe hüppega, vastus ilmub otse ühes materjalis):
Otsingu tabavus võib ulatuda 90-98% (sõltub teadmusbaasi kvaliteedist ja otsijast), genereerimise täpsus hoolikalt kujundatud juhiste korral 95%+, üldine täpsus võib olla 85-95%.
Mitme hüppega arutlus (vajab kahe või enama erineva materjali teabe kombineerimist):
Otsingu täpsus langeb järsult 50-70%-ni, vastuse õigsus võib olla vaid 40-60%. See on praegu RAG-i peamine raskus.
Avatud domeen + müraka teadmusbaas (nt tohutud veebilehed):
Täpsus langeb oluliselt, sest otsing võib tuua müra ja mudelit on kergem segada.

Järeldus: Kontrollitud keskkonnas (puhas, struktureeritud, sobiva dokumendigranulaarsusega) võib RAG saavutada üle 90% täpsuse; kuid keerukates, avatud ja mitme sammuga arutlust nõudvates stsenaariumides on täpsus sageli ebarahuldav ja vajab palju optimeerimist.

3. Täpsust mõjutavad põhitegurid

Kui avastad, et sinu RAG-süsteemi täpsus pole ideaalne, saab tavaliselt kontrollida järgmisi nelja etappi:

Teadmusbaas ise
Kas andmed on aegunud, mittetäielikud või isegi vead?
Kas dokumendid on segased (nt skaneeringud ilma OCR-ita, tabelid lagunenud)?
Tükeldamine ja indekseerimine
Tekstitükid liiga lühikesed → konteksti kaotus; liiga pikad → müra sisse toomine.
Kas manustamismudel sobib sinu valdkonnaga (üldmudel võib juriidilistes terminites halvasti toimida)?
Otsingustrateegia
Ainult vektorotsing võib ignoreerida täpseid märksõnu (nt tootemudelid).
Ümberjärjestuse puudumine toob esiritta ebaolulist sisu.
Genereerimise etapp
Kas juhised selgelt nõuavad "vastata ainult esitatud materjali põhjal, kui ei piisa, siis keeldu"?
Kas mudeli võimekus on piisav (väikesed mudelid kipuvad pikas kontekstis detailidest mööda vaatama)?

Levinud eksiarvamus: Madal täpsus pannakse otseselt LLM-i võimekuse puudumiseks, kuid tegelikult on enamik probleeme "otsingus" ja "juhiste disainis".

4. Kuidas "õigesti" täpsusesse suhtuda – mõned võtmehoiakud praktikas

1. Sea realistlikud alustasemed ja ootused

Kõrge riskiga valdkondades (meditsiinidiagnoos, juriidilised nõuanded) isegi 90% täpsusest ei piisa, tuleb kaasata inimlik järelevalve või mitmekordne kontroll.
Madala riskiga stsenaariumides (klienditoe põhiteenus, sisemine teadmusotsing) võib 80% täpsus koos sõbraliku "ma ei tea" vastusega oluliselt tõhusust suurendada.

2. Ära taotle 100%, vaid taotle "kontrollitavat täpsust"

Lase süsteemil automaatselt lisada allikaviited (milline artikkel, milline lõik).
Kasutaja näeb originaali ja saab ise kontrollida; isegi kui vastus aeg-ajalt eksib, läbipaistvus loob usaldust.
Lisa usaldusväärsuse hinnang, madala skoori korral teata "See vastus võib olla väheusaldusväärne, soovitame tutvuda originaaldokumendiga".

3. Käsitle täpsust pideva optimeerimise objektina, mitte ühekordse eesmärgina

Loo hindamistöövoog: perioodiliselt võta valim inimeste märgendatud küsimusi, hinda automaatselt otsingu tabavust ja genereerimise täpsust.
Kasuta RAGAS, TruLens jt tööriistu süsteemseks hindamiseks, mitte ei otsusta mõne juhtumi põhjal.
Vigade põhjal kohanda pidevalt: tükeldusviis, otsija parameetrid, ümberjärjestusmudel, juhised.

4. Erista "süsteemi viga" ja "inimeste standardite erinevus"

Mõnikord on süsteemi vastus kasutaja ootustest erinev, kuid teadmusbaasi materjali põhjal on see õige (sest teadmusbaasil on piirangud või vaidlused).
Siis tuleb määratleda: kas täpsus lähtub "teadmusbaasi faktidest" või "välistest üldtunnustatud faktidest"?

Kokkuvõte

Teadmusküsimuste vastamise süsteemide täpsus pole staatiline maksimumindikaator, vaid "teadmiste katvuse + otsingu täpsuse + genereerimise täpsuse + keeldumisvõime" kombinatsiooni peegeldav võimekuse väärtus. Selle vaatlemisel tuleb mõista, et praegune tehnoloogia ei suuda täiuslikkust saavutada, kuid allikaviidete, usaldusväärsuse hinnangu, inimese ja masina koostöö jms disainiga saab äris tegelikku väärtust luua.