AI viðtalsröð 9: Hvernig á að meta nákvæmni þekkingarspurningakerfa?

Nákvæmni er kjarnalíflína þekkingarspurningakerfa, sérstaklega þegar reynt er að beita þeim í alvarlegum aðstæðum (svo sem læknisfræði, lögfræði, innri stuðningi fyrirtækja). Skoðun mín má draga saman sem: Nákvæmni er margvítt hugtak, ekki er hægt að horfa bara á eina tölu, heldur þarf að meta samanlögð getu kerfisins, erfiðleika verkefnisins og kostnað við villur.

Hér er fjallað um það frá fjórum hliðum:

I. Nákvæmni er ekki bara "rétt/rangt"

Hefðbundin flokkunarverkefni (eins og myndgreining) hafa skýra nákvæmni. En þekkingarspurningakerfi eru öðruvísi, algengar undirvíddir eru:

Vídda	Merking	Dæmi um mat
Leitartíðni	Getur kerfið sótt skjalabúta sem innihalda rétt svör úr þekkingargrunninum?	Notandi spyr "Hver var tekjur A-fyrirtækisins árið 2024", getur kerfið sótt þann hluta sem inniheldur þessi gögn?
Trúmennska í svarmyndun	Er svarið sem líkanið býr til stranglega byggt á efni sem sótt var, ekki sjálfskapað?	Sótt efni nefnir ekki "vaxtarhlutfall", en líkanið segir "vaxtarhlutfallið er 5%" → ótrúmennska
Réttmæti svars	Er endanlegt svar í samræmi við staðreyndir (eða viðmiðunarsvar)?	Rétt svar er "42 milljarðar", líkanið skilar "42 milljarðar" eða "um 42 milljarða RMB" má teljast rétt
Neitunarhlutfall	Getur kerfið virkan sagt "veit ekki" þegar engar upplýsingar eru í þekkingargrunninum, í stað þess að giska?	Þegar leit skilar engu eða öryggi er lágt, skilar "Því miður, engar upplýsingar fundust"

Kerfi getur verið með háa leitartíðni (finnur alltaf viðeigandi málsgreinar) en lága trúmennsku (bætir alltaf við), og endanleg nákvæmni verður samt léleg. Því þegar litið er á nákvæmni þarf fyrst að skilgreina hvaða þátt er verið að mæla.

II. Hver er nákvæmni RAG-kerfa við núverandi tæknistig?

Engin ein tala, en hægt er að vísa í opinberar rannsóknir og reynslu:

Einföld staðreyndaspurning (eitt stökk, svar er beint í einum efnisbút):
Leitartíðni getur verið 90-98% (fer eftir gæðum þekkingargrunns og leitar), trúmennska í svarmyndun getur verið 95%+ við vandlega hannaðar leiðbeiningar, samanlögð nákvæmni milli 85-95%.
Margþrepa röksemdafærsla (þarf að sameina upplýsingar úr tveimur eða fleiri bútum):
Leitarnákvæmni fellur skyndilega í 50-70%, réttmæti svars getur verið aðeins 40-60%. Þetta er helsti erfiðleiki RAG núna.
Opin lén + hávaðasamur þekkingargrunnur (eins og gríðarmikið vefsíðuefni):
Nákvæmni minnkar verulega, þar sem leit getur leitt inn hávaða og líkanið verður auðveldlega truflað.

Niðurstaða: Í stýrðu umhverfi (hreint, skipulagt, viðeigandi skjalastærð) getur RAG náð yfir 90% nákvæmni; en í flóknum, opnum aðstæðum sem krefjast margra þrepa röksemdafærslu er nákvæmni oft ófullnægjandi og þarf mikla hagræðingu.

III. Helstu þættir sem hafa áhrif á nákvæmni

Ef þú tekur eftir að nákvæmni RAG-kerfisins þíns er ekki góð, geturðu venjulega kannað eftirfarandi fjóra þætti:

Þekkingargrunnurinn sjálfur
Eru gögn úrelt, ófullkomin eða jafnvel með villur?
Eru skjölin óskipulögð (t.d. skönnuð skjöl án OCR, töflur brotnar í rugl)?
Skipting og vísitala
Of stuttir textabútar → tapa samhengi; of langir → hávaði.
Er innbyggingarlíkanið viðeigandi fyrir þitt svið (almenn líkön gætu staðið sig illa á lögfræðilegum hugtökum)?
Leitarstefna
Einungis vektorleit gæti gleymt nákvæmum leitarorðum (eins og vörunúmerum).
Skortur á endurröðun leiðir til óviðeigandi efnis fremst í niðurstöðum.
Svarmyndunarþáttur
Kveða leiðbeiningar skýrt á um „aðeins svara út frá efninu sem gefið er, annars neita“?
Er líkanið nógu öflugt (smá líkön eiga auðvelt með að gleyma smáatriðum í löngu samhengi)?

Algengur misskilningur: Að kenna LLM líkaninu um litla nákvæmni, en í raun stafa flest vandamál frá „leit“ og „hönnun leiðbeininga“.

IV. Hvernig á að „líta“ á nákvæmni rétt — nokkur lykilviðhorf í framkvæmd

1. Setja raunhæfar viðmiðanir og væntingar

Fyrir áhættumikil svið (læknisfræðileg greining, lögfræðileg ráðgjöf) er 90% nákvæmni langt frá nægjanlegu; þarf að innleiða mannlegt eftirlit eða margfalda staðfestingu.
Fyrir litla áhættu (þjónustuver, innri þekkingarleit) gæti 80% nákvæmni ásamt vingjarnlegu „veit ekki“ svari þegar aukið skilvirkni umtalsvert.

2. Ekki stefna að 100%, heldur að „sannanlegri nákvæmni“

Láta kerfið sjálfkrafa heimilda (vitna í hvaða grein, hvaða málsgrein).
Notandi getur skoðað frumheimildir sjálfur og staðfest, jafnvel þótt svar sé stöku sinnum rangt, byggir gagnsæi upp traust.
Bæta við öryggisstigseinkunn, þegar lágt er, virkt benda á „Þetta svar er óáreiðanlegt, mælum með að skoða upprunalegt skjal.“

3. Líta á nákvæmni sem stöðuga endurbætur, ekki einskiptismarkmið

Koma á matslínu: Reglulega taka handmerktar spurningar, sjálfvirkt meta leitartíðni og trúmennsku svarmyndunar.
Nota verkfæri eins og RAGAS, TruLens fyrir kerfisbundið mat, ekki bara nokkur dæmi.
Aðlaga stöðugt út frá slæmum tilfellum: skiptingaraðferð, leitarfæribreytur, endurröðunarlíkan, leiðbeiningar.

4. Greina „kerfisvillur“ frá „ósamræmi við mannlega staðla“

Stundum er svar kerfisins frábrugðið væntingum notanda, en samkvæmt þekkingargrunninum er það rétt (vegna þess að þekkingargrunnurinn sjálfur hefur takmarkanir eða ágreining).
Þá þarf að skilgreina: Er nákvæmni miðuð við „staðreyndir þekkingargrunnsins“ eða „viðurkenndar staðreyndir utan hans“?

Lokaágrip

Nákvæmni þekkingarspurningakerfa er ekki kyrrstæð einkunn á fullkomnun, heldur samsett getugildi sem endurspeglar 'þekkingarþekju + leitarnákvæmni + trúmennsku svarmyndunar + neitunarhæfni'. Þegar litið er á hana, þarf bæði að viðurkenna að núverandi tækni getur ekki verið fullkomin, og einnig að nota hönnun eins og heimildarakningu, öryggisstigsvísbendingar, mann-vél samvinnu til að hafa raunverulegt gildi í viðskiptum.