Séria o AI 9: Ako vnímať presnosť systému na otázky a odpovede?
Presnosť je kľúčovým ukazovateľom životaschopnosti systému na otázky a odpovede, najmä keď sa ho snažíte použiť v serióznych oblastiach (ako medicína, právo, interná podpora podniku). Môj názor možno zhrnúť takto: Presnosť je multidimenzionálny koncept, nemožno sa pozerať len na jedno číslo, ale treba ju hodnotiť v kombinácii so schopnosťami systému, náročnosťou úloh a nákladmi na chyby.
Nižšie rozoberiem štyri úrovne:
1. Presnosť nie je len „správne/nesprávne“
Pri tradičných klasifikačných problémoch (napr. rozpoznávanie obrázkov) je presnosť jasná. Pri systémoch na otázky a odpovede je to iné; bežné dimenzie zahŕňajú:
| Dimenzie | Význam | Príklad hodnotenia |
|---|---|---|
| Miera zásahu vyhľadávania | Dokáže systém z databázy znalostí nájsť dokumentové bloky obsahujúce správnu odpoveď? | Používateľ sa pýta „Príjmy spoločnosti A za rok 2024“, dokáže systém nájsť časť výkazu s týmito údajmi? |
| Vernosť generovania | Je odpoveď generovaná modelom striktne založená na vyhľadanom obsahu, alebo si ju vymýšľa? | Vyhľadané materiály neuvádzajú „mieru rastu“, ale model povie „rast o 5 %“ → neverné |
| Správnosť odpovede | Súhlasí konečná odpoveď s faktami (alebo referenčnou odpoveďou)? | Správna odpoveď je „4,2 miliardy“, model uvedie „4,2 miliardy“ alebo „približne 4,2 miliardy RMB“ – možno považovať za správne |
| Miera odmietnutia | Ak v databáze znalostí nie sú relevantné informácie, dokáže systém povedať „neviem“ namiesto hádania? | Ak je vyhľadávanie prázdne alebo s nízkou spoľahlivosťou, výstup „Prepáčte, nenašli sa relevantné informácie“ |
Systém môže mať vysokú mieru zásahu vyhľadávania (vždy nájde relevantné pasáže), ale veľmi nízku vernosť generovania (vždy si vymýšľa), čo vedie k nízkej celkovej presnosti. Preto pri hodnotení presnosti musíte najprv určiť, ktorú fázu meriate.
2. Aká je presnosť RAG systémov pri súčasnej úrovni technológií?
Neexistuje jednotné číslo, ale môžeme sa oprieť o niektoré verejné výskumy a prax:
- Jednoduché faktické otázky (jednoduchý skok, odpoveď priamo v jednom dokumente):
Miera zásahu vyhľadávania môže dosiahnuť 90 – 98 % (v závislosti od kvality databázy a vyhľadávača), vernosť generovania pri dobre navrhnutých promptoch viac ako 95 %, celková presnosť medzi 85 – 95 %. - Viacskokové odvodzovanie (treba kombinovať informácie z dvoch alebo viacerých rôznych dokumentov):
Presnosť vyhľadávania klesne na 50 – 70 %, správnosť odpovede môže byť len 40 – 60 %. To je hlavná výzva súčasných RAG systémov. - Otvorená doména + hlučná databáza (napr. obrovské množstvo webových stránok):
Presnosť výrazne klesá, pretože vyhľadávanie môže vnášať šum a model je ľahko ovplyvniteľný.
Záver: V kontrolovanom prostredí (čisté, štruktúrované, vhodná granularita dokumentov) môže RAG dosiahnuť presnosť nad 90 %; v zložitých, otvorených scenároch vyžadujúcich viacskokové odvodzovanie je presnosť často neuspokojivá a vyžaduje rozsiahlu optimalizáciu.
3. Kľúčové faktory ovplyvňujúce presnosť
Ak zistíte, že presnosť vášho RAG systému nie je ideálna, zvyčajne môžete skontrolovať tieto štyri fázy:
- Samotná databáza znalostí
- Sú údaje zastarané, neúplné alebo dokonca chybné?
-
Sú dokumenty chaotické (napr. naskenované bez OCR, tabuľky rozbité na nezmysly)?
-
Segmentácia a indexovanie
- Sú textové bloky príliš krátke → strata kontextu; príliš dlhé → vnášanie šumu.
-
Je vkladací model vhodný pre vašu doménu (všeobecný model môže pri právnych termínoch fungovať zle)?
-
Stratégia vyhľadávania
- Použitie len vektorového vyhľadávania môže zanedbať presné kľúčové slová (napr. číslo produktu).
-
Nedostatočné znovuzoradenie vedie k zmiešaniu irelevantného obsahu do prvých výsledkov.
-
Fáza generovania
- Je v prompte jasne uvedené „odpovedajte len na základe poskytnutých materiálov, inak odmietnite“?
- Je model dostatočne schopný (malé modely ľahko prehliadnu detaily v dlhom kontexte)?
Bežná chyba: Pripisovať nízku presnosť priamo nedostatočnej schopnosti LLM, ale v skutočnosti väčšina problémov spočíva vo „vyhľadávaní“ a „návrhu promptov“.
4. Ako správne „vnímať“ presnosť – niekoľko kľúčových postojov v praxi
1. Stanovte si primerané referenčné hodnoty a očakávania
- Pre vysoko rizikové oblasti (lekárske diagnózy, právne rady) nestačí ani 90 % presnosť; je potrebné zaviesť ľudské overenie alebo viacnásobné overenie.
- Pre nízko rizikové scenáre (zákaznícka podpora, interné vyhľadávanie znalostí) môže 80 % presnosť spolu s priateľskou odpoveďou „neviem“ výrazne zvýšiť efektivitu.
2. Neusilujte sa o 100 %, usilujte sa o „overiteľnú presnosť“
- Nechajte systém automaticky uvádzať zdroje (ktorý článok, ktorý odsek).
Používateľ si môže overiť pôvodný text; aj keď je odpoveď občas nesprávna, transparentnosť buduje dôveru. - Pridajte hodnotenie spoľahlivosti, pri nízkom skóre aktívne upozornite „Táto odpoveď má nízku spoľahlivosť, odporúčame skontrolovať pôvodný dokument“.
3. Presnosť považujte za objekt priebežnej optimalizácie, nie jednorazový cieľ
- Vytvorte hodnotiacu linku: pravidelne vyberajte vzorku ručne anotovaných otázok a automaticky vyhodnocujte mieru zásahu vyhľadávania a vernosť generovania.
- Používajte nástroje ako RAGAS, TruLens na systematické hodnotenie, namiesto rozhodovania na základe niekoľkých prípadov.
- Na základe chybných prípadov neustále upravujte: spôsob segmentácie, parametre vyhľadávača, model na znovuzoradenie, prompty.
4. Rozlišujte medzi „systémovou chybou“ a „nezhodou s ľudským štandardom“
- Niekedy systém poskytne odpoveď, ktorá sa líši od očakávania používateľa, ale podľa údajov v databáze je správna (pretože databáza má obmedzenia alebo sporný obsah).
Vtedy treba určiť: je presnosť založená na „faktoch z databázy“ alebo na „externých všeobecne uznávaných faktoch“?
Záverečné zhrnutie
Presnosť systému na otázky a odpovede nie je statický ukazovateľ dokonalosti, ale komplexná hodnota odrážajúca „pokrytie znalostí + presnosť vyhľadávania + vernosť generovania + schopnosť odmietnuť“. Pri jej vnímaní je potrebné si racionálne uvedomiť, že súčasná technológia nie je dokonalá, a zároveň ju využiť v praxi pomocou odkazov na zdroje, indikátorov spoľahlivosti, spolupráce človeka a stroja a iných návrhov.
评论
暂无已展示的评论。
发表评论(匿名)