AI série rozhovorů 9: Jak nahlížet na přesnost systémů pro otázky a odpovědi?

Přesnost je základní životní linií systému pro otázky a odpovědi, zvláště když se jej snažíte nasadit do seriózních scénářů (např. zdravotnictví, právo, interní podpora podniku). Můj názor lze shrnout jako: Přesnost je multidimenzionální koncept, nelze se dívat jen na jedno číslo, ale je třeba ji hodnotit komplexně s ohledem na schopnosti systému, obtížnost úkolu a náklady na chyby.

Níže rozebírám ze čtyř úrovní:

1. Přesnost není jen „správně/špatně“

U tradičních klasifikačních problémů (např. rozpoznávání obrazu) je přesnost jasná. Ale u systémů pro otázky a odpovědi se běžně dělí do dimenzí:

Dimenze	Význam	Příklad hodnocení
Míra zásahu při vyhledávání	Dokáže systém znalostní báze najít dokumentový blok obsahující správnou odpověď?	Uživatel se ptá „Tržby společnosti A za rok 2024“, systém najde tu část zprávy s těmito daty?
Věrnost generování	Je odpověď generovaná modelem striktně založena na vyhledaném obsahu, nebo si ji vymýšlí?	Vyhledaný materiál nezmínil „míru růstu“, ale model řekl „vzrostlo o 5 %“ → nevěrné
Správnost odpovědi	Shoduje se konečná odpověď s fakty (nebo referenční odpovědí)?	Správná odpověď je „4,2 miliardy“, model vydá „4,2 miliardy“ nebo „asi 4,2 miliardy Kč“ → lze považovat za správné
Míra odmítnutí	Dokáže systém aktivně říct „nevím“, pokud v databázi není relevantní informace?	Při prázdném vyhledávání nebo nízké spolehlivosti výstup „Omlouvám se, nenalezeny relevantní informace“

Systém může mít vysokou míru zásahu při vyhledávání (vždy najde relevantní odstavec), ale nízkou věrnost generování (neustále přidává), výsledná přesnost je přesto nízká. Proto je třeba při posuzování přesnosti nejprve určit, který krok měříte.

2. Při současné technické úrovni, jaké přesnosti mohou dosahovat RAG systémy?

Neexistuje jednotné číslo, ale lze se opřít o některé veřejné výzkumy a praxi:

Jednoduchá faktografická QA (jednoskoková, odpověď je přímo v jednom dokumentu):
Míra zásahu při vyhledávání 90-98 % (v závislosti na kvalitě znalostní báze a vyhledávači), věrnost generování při pečlivě navrženém promptu 95 %+, celková přesnost může být mezi 85-95 %.
Vícenásobné uvažování (nutnost kombinovat informace ze dvou a více různých dokumentů):
Přesnost vyhledávání klesá na 50-70 %, správnost generované odpovědi může být jen 40-60 %. To je hlavní současný problém RAG.
Otevřená doména + hlučná znalostní báze (např. obrovské množství webových stránek):
Přesnost výrazně klesá, protože vyhledávání může vnést šum a model je náchylný k rušení.

Závěr: V kontrolovaném prostředí (čistá, strukturovaná data s vhodnou granularitou) může RAG dosáhnout přesnosti nad 90 %; ve složitých, otevřených scénářích vyžadujících vícenásobné uvažování bývá přesnost neuspokojivá a vyžaduje mnoho optimalizací.

3. Klíčové faktory ovlivňující přesnost

Pokud zjistíte, že přesnost vašeho RAG systému není ideální, obvykle můžete problém hledat v těchto čtyřech krocích:

Samotná znalostní báze
Jsou data zastaralá, neúplná nebo dokonce chybná?
Jsou dokumenty chaotické (např. naskenované bez OCR, tabulky rozbité na zmatečný text)?
Segmentace a indexace
Textové bloky příliš krátké → ztráta kontextu; příliš dlouhé → vnášení šumu.
Je embedding model vhodný pro vaši doménu (obecný model může selhat u právních termínů)?
Strategie vyhledávání
Pouze vektorové vyhledávání může ignorovat přesná klíčová slova (např. model produktu).
Chybějící přeřazení (reranking) může vést k smísení irelevantního obsahu do předních výsledků.
Generační fáze
Je v promptu výslovně uvedeno „odpovídej jen na základě poskytnutých materiálů, pokud nestačí, odmítni“?
Je model dostatečně schopný (malé modely snadno přehlédnou detaily v dlouhém kontextu)?

Častý omyl: Nízká přesnost je připisována nedostatečné schopnosti LLM, ale ve skutečnosti většina problémů spočívá ve „vyhledávání“ a „návrhu promptu“.

4. Jak správně „nahlížet“ na přesnost – několik klíčových postojů v praxi

1. Stanovte si rozumné baseline a očekávání

Pro vysoce rizikové oblasti (lékařská diagnóza, právní rady) ani 90% přesnost nestačí, je třeba zavést lidskou kontrolu nebo vícenásobné ověření.
Pro nízce rizikové scénáře (zákaznická podpora, interní vyhledávání znalostí) může 80% přesnost spolu s přátelským „nevím“ již výrazně zvýšit efektivitu.

2. Neusilujte o 100 %, usilujte o „ověřitelnou přesnost“

Nechte systém automaticky připojit zdroje (odkaz na který článek, který odstavec).
Uživatel si může sám ověřit původní text, i když je odpověď občas chybná, transparentnost buduje důvěru.
Přidejte skóre spolehlivosti, při nízkém skóre aktivně upozorněte „Tato odpověď má nízkou spolehlivost, doporučujeme nahlédnout do původního dokumentu“.

3. Považujte přesnost za předmět průběžné optimalizace, ne za jednorázový cíl

Vytvořte vyhodnocovací pipeline: pravidelně odebírejte dávku ručně anotovaných otázek, automaticky vyhodnocujte míru zásahu vyhledávání a věrnost generování.
Používejte nástroje jako RAGAS, TruLens pro systematické hodnocení, ne jen na základě několika případů.
Na základě špatných případů neustále upravujte: způsob segmentace, parametry vyhledávače, model přeřazení, prompt.

4. Rozlišujte „systémovou chybu“ a „nesoulad s lidským standardem“

Někdy systém vydá odpověď odlišnou od očekávání uživatele, ale podle materiálů v databázi je správná (protože databáze má své meze nebo kontroverze).
Pak je třeba vymezit: přesnost se vztahuje k „faktům v databázi“ nebo k „externě uznávaným faktům“?

Závěrečné shrnutí

**Přesnost systému pro otázky a odpovědi není statický ukazatel plného skóre, ale komplexní hodnota odrážející „pokrytí znalostí + přesnost vyhledávání + věrnost generování + schopnost odmítnout“. ** Při jejím posuzování je třeba si racionálně uvědomit, že současná technologie není schopna dokonalosti, ale pomocí návrhů jako citování zdrojů, indikace spolehlivosti a spolupráce člověka se strojem lze v praxi dosáhnout skutečné hodnoty.