AI viðtalsröð 9: Hvernig á að meta nákvæmni þekkingarspurningakerfa?
Nákvæmni er kjarnalíflína þekkingarspurningakerfa, sérstaklega þegar reynt er að beita þeim í alvarlegum aðstæðum (svo sem læknisfræði, lögfræði, innri stuðningi fyrirtækja). Skoðun mín má draga saman sem: Nákvæmni er margvítt hugtak, ekki er hægt að horfa bara á eina tölu, heldur þarf að meta samanlögð getu kerfisins, erfiðleika verkefnisins og kostnað við villur.
Hér er fjallað um það frá fjórum hliðum:
I. Nákvæmni er ekki bara "rétt/rangt"
Hefðbundin flokkunarverkefni (eins og myndgreining) hafa skýra nákvæmni. En þekkingarspurningakerfi eru öðruvísi, algengar undirvíddir eru:
| Vídda | Merking | Dæmi um mat |
|---|---|---|
| Leitartíðni | Getur kerfið sótt skjalabúta sem innihalda rétt svör úr þekkingargrunninum? | Notandi spyr "Hver var tekjur A-fyrirtækisins árið 2024", getur kerfið sótt þann hluta sem inniheldur þessi gögn? |
| Trúmennska í svarmyndun | Er svarið sem líkanið býr til stranglega byggt á efni sem sótt var, ekki sjálfskapað? | Sótt efni nefnir ekki "vaxtarhlutfall", en líkanið segir "vaxtarhlutfallið er 5%" → ótrúmennska |
| Réttmæti svars | Er endanlegt svar í samræmi við staðreyndir (eða viðmiðunarsvar)? | Rétt svar er "42 milljarðar", líkanið skilar "42 milljarðar" eða "um 42 milljarða RMB" má teljast rétt |
| Neitunarhlutfall | Getur kerfið virkan sagt "veit ekki" þegar engar upplýsingar eru í þekkingargrunninum, í stað þess að giska? | Þegar leit skilar engu eða öryggi er lágt, skilar "Því miður, engar upplýsingar fundust" |
Kerfi getur verið með háa leitartíðni (finnur alltaf viðeigandi málsgreinar) en lága trúmennsku (bætir alltaf við), og endanleg nákvæmni verður samt léleg. Því þegar litið er á nákvæmni þarf fyrst að skilgreina hvaða þátt er verið að mæla.
II. Hver er nákvæmni RAG-kerfa við núverandi tæknistig?
Engin ein tala, en hægt er að vísa í opinberar rannsóknir og reynslu:
- Einföld staðreyndaspurning (eitt stökk, svar er beint í einum efnisbút):
Leitartíðni getur verið 90-98% (fer eftir gæðum þekkingargrunns og leitar), trúmennska í svarmyndun getur verið 95%+ við vandlega hannaðar leiðbeiningar, samanlögð nákvæmni milli 85-95%. - Margþrepa röksemdafærsla (þarf að sameina upplýsingar úr tveimur eða fleiri bútum):
Leitarnákvæmni fellur skyndilega í 50-70%, réttmæti svars getur verið aðeins 40-60%. Þetta er helsti erfiðleiki RAG núna. - Opin lén + hávaðasamur þekkingargrunnur (eins og gríðarmikið vefsíðuefni):
Nákvæmni minnkar verulega, þar sem leit getur leitt inn hávaða og líkanið verður auðveldlega truflað.
Niðurstaða: Í stýrðu umhverfi (hreint, skipulagt, viðeigandi skjalastærð) getur RAG náð yfir 90% nákvæmni; en í flóknum, opnum aðstæðum sem krefjast margra þrepa röksemdafærslu er nákvæmni oft ófullnægjandi og þarf mikla hagræðingu.
III. Helstu þættir sem hafa áhrif á nákvæmni
Ef þú tekur eftir að nákvæmni RAG-kerfisins þíns er ekki góð, geturðu venjulega kannað eftirfarandi fjóra þætti:
- Þekkingargrunnurinn sjálfur
- Eru gögn úrelt, ófullkomin eða jafnvel með villur?
-
Eru skjölin óskipulögð (t.d. skönnuð skjöl án OCR, töflur brotnar í rugl)?
-
Skipting og vísitala
- Of stuttir textabútar → tapa samhengi; of langir → hávaði.
-
Er innbyggingarlíkanið viðeigandi fyrir þitt svið (almenn líkön gætu staðið sig illa á lögfræðilegum hugtökum)?
-
Leitarstefna
- Einungis vektorleit gæti gleymt nákvæmum leitarorðum (eins og vörunúmerum).
-
Skortur á endurröðun leiðir til óviðeigandi efnis fremst í niðurstöðum.
-
Svarmyndunarþáttur
- Kveða leiðbeiningar skýrt á um „aðeins svara út frá efninu sem gefið er, annars neita“?
- Er líkanið nógu öflugt (smá líkön eiga auðvelt með að gleyma smáatriðum í löngu samhengi)?
Algengur misskilningur: Að kenna LLM líkaninu um litla nákvæmni, en í raun stafa flest vandamál frá „leit“ og „hönnun leiðbeininga“.
IV. Hvernig á að „líta“ á nákvæmni rétt — nokkur lykilviðhorf í framkvæmd
1. Setja raunhæfar viðmiðanir og væntingar
- Fyrir áhættumikil svið (læknisfræðileg greining, lögfræðileg ráðgjöf) er 90% nákvæmni langt frá nægjanlegu; þarf að innleiða mannlegt eftirlit eða margfalda staðfestingu.
- Fyrir litla áhættu (þjónustuver, innri þekkingarleit) gæti 80% nákvæmni ásamt vingjarnlegu „veit ekki“ svari þegar aukið skilvirkni umtalsvert.
2. Ekki stefna að 100%, heldur að „sannanlegri nákvæmni“
- Láta kerfið sjálfkrafa heimilda (vitna í hvaða grein, hvaða málsgrein).
Notandi getur skoðað frumheimildir sjálfur og staðfest, jafnvel þótt svar sé stöku sinnum rangt, byggir gagnsæi upp traust. - Bæta við öryggisstigseinkunn, þegar lágt er, virkt benda á „Þetta svar er óáreiðanlegt, mælum með að skoða upprunalegt skjal.“
3. Líta á nákvæmni sem stöðuga endurbætur, ekki einskiptismarkmið
- Koma á matslínu: Reglulega taka handmerktar spurningar, sjálfvirkt meta leitartíðni og trúmennsku svarmyndunar.
- Nota verkfæri eins og RAGAS, TruLens fyrir kerfisbundið mat, ekki bara nokkur dæmi.
- Aðlaga stöðugt út frá slæmum tilfellum: skiptingaraðferð, leitarfæribreytur, endurröðunarlíkan, leiðbeiningar.
4. Greina „kerfisvillur“ frá „ósamræmi við mannlega staðla“
- Stundum er svar kerfisins frábrugðið væntingum notanda, en samkvæmt þekkingargrunninum er það rétt (vegna þess að þekkingargrunnurinn sjálfur hefur takmarkanir eða ágreining).
Þá þarf að skilgreina: Er nákvæmni miðuð við „staðreyndir þekkingargrunnsins“ eða „viðurkenndar staðreyndir utan hans“?
Lokaágrip
Nákvæmni þekkingarspurningakerfa er ekki kyrrstæð einkunn á fullkomnun, heldur samsett getugildi sem endurspeglar 'þekkingarþekju + leitarnákvæmni + trúmennsku svarmyndunar + neitunarhæfni'. Þegar litið er á hana, þarf bæði að viðurkenna að núverandi tækni getur ekki verið fullkomin, og einnig að nota hönnun eins og heimildarakningu, öryggisstigsvísbendingar, mann-vél samvinnu til að hafa raunverulegt gildi í viðskiptum.
评论
暂无已展示的评论。
发表评论(匿名)