Séria o AI 9: Ako vnímať presnosť systému na otázky a odpovede?

Presnosť je kľúčovým ukazovateľom životaschopnosti systému na otázky a odpovede, najmä keď sa ho snažíte použiť v serióznych oblastiach (ako medicína, právo, interná podpora podniku). Môj názor možno zhrnúť takto: Presnosť je multidimenzionálny koncept, nemožno sa pozerať len na jedno číslo, ale treba ju hodnotiť v kombinácii so schopnosťami systému, náročnosťou úloh a nákladmi na chyby.

Nižšie rozoberiem štyri úrovne:

1. Presnosť nie je len „správne/nesprávne“

Pri tradičných klasifikačných problémoch (napr. rozpoznávanie obrázkov) je presnosť jasná. Pri systémoch na otázky a odpovede je to iné; bežné dimenzie zahŕňajú:

Dimenzie	Význam	Príklad hodnotenia
Miera zásahu vyhľadávania	Dokáže systém z databázy znalostí nájsť dokumentové bloky obsahujúce správnu odpoveď?	Používateľ sa pýta „Príjmy spoločnosti A za rok 2024“, dokáže systém nájsť časť výkazu s týmito údajmi?
Vernosť generovania	Je odpoveď generovaná modelom striktne založená na vyhľadanom obsahu, alebo si ju vymýšľa?	Vyhľadané materiály neuvádzajú „mieru rastu“, ale model povie „rast o 5 %“ → neverné
Správnosť odpovede	Súhlasí konečná odpoveď s faktami (alebo referenčnou odpoveďou)?	Správna odpoveď je „4,2 miliardy“, model uvedie „4,2 miliardy“ alebo „približne 4,2 miliardy RMB“ – možno považovať za správne
Miera odmietnutia	Ak v databáze znalostí nie sú relevantné informácie, dokáže systém povedať „neviem“ namiesto hádania?	Ak je vyhľadávanie prázdne alebo s nízkou spoľahlivosťou, výstup „Prepáčte, nenašli sa relevantné informácie“

Systém môže mať vysokú mieru zásahu vyhľadávania (vždy nájde relevantné pasáže), ale veľmi nízku vernosť generovania (vždy si vymýšľa), čo vedie k nízkej celkovej presnosti. Preto pri hodnotení presnosti musíte najprv určiť, ktorú fázu meriate.

2. Aká je presnosť RAG systémov pri súčasnej úrovni technológií?

Neexistuje jednotné číslo, ale môžeme sa oprieť o niektoré verejné výskumy a prax:

Jednoduché faktické otázky (jednoduchý skok, odpoveď priamo v jednom dokumente):
Miera zásahu vyhľadávania môže dosiahnuť 90 – 98 % (v závislosti od kvality databázy a vyhľadávača), vernosť generovania pri dobre navrhnutých promptoch viac ako 95 %, celková presnosť medzi 85 – 95 %.
Viacskokové odvodzovanie (treba kombinovať informácie z dvoch alebo viacerých rôznych dokumentov):
Presnosť vyhľadávania klesne na 50 – 70 %, správnosť odpovede môže byť len 40 – 60 %. To je hlavná výzva súčasných RAG systémov.
Otvorená doména + hlučná databáza (napr. obrovské množstvo webových stránok):
Presnosť výrazne klesá, pretože vyhľadávanie môže vnášať šum a model je ľahko ovplyvniteľný.

Záver: V kontrolovanom prostredí (čisté, štruktúrované, vhodná granularita dokumentov) môže RAG dosiahnuť presnosť nad 90 %; v zložitých, otvorených scenároch vyžadujúcich viacskokové odvodzovanie je presnosť často neuspokojivá a vyžaduje rozsiahlu optimalizáciu.

3. Kľúčové faktory ovplyvňujúce presnosť

Ak zistíte, že presnosť vášho RAG systému nie je ideálna, zvyčajne môžete skontrolovať tieto štyri fázy:

Samotná databáza znalostí
Sú údaje zastarané, neúplné alebo dokonca chybné?
Sú dokumenty chaotické (napr. naskenované bez OCR, tabuľky rozbité na nezmysly)?
Segmentácia a indexovanie
Sú textové bloky príliš krátke → strata kontextu; príliš dlhé → vnášanie šumu.
Je vkladací model vhodný pre vašu doménu (všeobecný model môže pri právnych termínoch fungovať zle)?
Stratégia vyhľadávania
Použitie len vektorového vyhľadávania môže zanedbať presné kľúčové slová (napr. číslo produktu).
Nedostatočné znovuzoradenie vedie k zmiešaniu irelevantného obsahu do prvých výsledkov.
Fáza generovania
Je v prompte jasne uvedené „odpovedajte len na základe poskytnutých materiálov, inak odmietnite“?
Je model dostatočne schopný (malé modely ľahko prehliadnu detaily v dlhom kontexte)?

Bežná chyba: Pripisovať nízku presnosť priamo nedostatočnej schopnosti LLM, ale v skutočnosti väčšina problémov spočíva vo „vyhľadávaní“ a „návrhu promptov“.

4. Ako správne „vnímať“ presnosť – niekoľko kľúčových postojov v praxi

1. Stanovte si primerané referenčné hodnoty a očakávania

Pre vysoko rizikové oblasti (lekárske diagnózy, právne rady) nestačí ani 90 % presnosť; je potrebné zaviesť ľudské overenie alebo viacnásobné overenie.
Pre nízko rizikové scenáre (zákaznícka podpora, interné vyhľadávanie znalostí) môže 80 % presnosť spolu s priateľskou odpoveďou „neviem“ výrazne zvýšiť efektivitu.

2. Neusilujte sa o 100 %, usilujte sa o „overiteľnú presnosť“

Nechajte systém automaticky uvádzať zdroje (ktorý článok, ktorý odsek).
Používateľ si môže overiť pôvodný text; aj keď je odpoveď občas nesprávna, transparentnosť buduje dôveru.
Pridajte hodnotenie spoľahlivosti, pri nízkom skóre aktívne upozornite „Táto odpoveď má nízku spoľahlivosť, odporúčame skontrolovať pôvodný dokument“.

3. Presnosť považujte za objekt priebežnej optimalizácie, nie jednorazový cieľ

Vytvorte hodnotiacu linku: pravidelne vyberajte vzorku ručne anotovaných otázok a automaticky vyhodnocujte mieru zásahu vyhľadávania a vernosť generovania.
Používajte nástroje ako RAGAS, TruLens na systematické hodnotenie, namiesto rozhodovania na základe niekoľkých prípadov.
Na základe chybných prípadov neustále upravujte: spôsob segmentácie, parametre vyhľadávača, model na znovuzoradenie, prompty.

4. Rozlišujte medzi „systémovou chybou“ a „nezhodou s ľudským štandardom“

Niekedy systém poskytne odpoveď, ktorá sa líši od očakávania používateľa, ale podľa údajov v databáze je správna (pretože databáza má obmedzenia alebo sporný obsah).
Vtedy treba určiť: je presnosť založená na „faktoch z databázy“ alebo na „externých všeobecne uznávaných faktoch“?

Záverečné zhrnutie

Presnosť systému na otázky a odpovede nie je statický ukazovateľ dokonalosti, ale komplexná hodnota odrážajúca „pokrytie znalostí + presnosť vyhľadávania + vernosť generovania + schopnosť odmietnuť“. Pri jej vnímaní je potrebné si racionálne uvedomiť, že súčasná technológia nie je dokonalá, a zároveň ju využiť v praxi pomocou odkazov na zdroje, indikátorov spoľahlivosti, spolupráce človeka a stroja a iných návrhov.