AI sorozat interjú 9: Hogyan viszonyuljunk a tudás alapú kérdés-válasz rendszerek pontosságához?

A pontosság a tudás alapú kérdés-válasz rendszerek éltető eleme, különösen, ha komoly területeken (pl. egészségügy, jog, vállalati belső támogatás) próbáljuk alkalmazni őket. Véleményemet a következőképpen foglalhatnám össze: a pontosság többdimenziós fogalom, nem szabad egyetlen számra redukálni, hanem a rendszer képességeit, a feladat nehézségét és a hibázás költségeit együttesen kell értékelni.

Az alábbiakban négy szinten fejtem ki:

1. A pontosság nem csak „helyes/hibás” kérdése

A hagyományos osztályozási problémáknál (pl. képfelismerés) a pontosság egyértelmű. A tudás alapú kérdés-válasz rendszereknél azonban gyakoriak a finomabb dimenziók:

Dimenzió	Jelentés	Értékelési példa
Visszakeresési találati arány	A rendszer képes-e visszakeresni a tudásbázisból a helyes választ tartalmazó dokumentumrészt?	A felhasználó megkérdezi: „Mekkora volt az A vállalat 2024-es bevétele?” – a rendszer megtalálja-e azt a jelentésrészt, amely ezt az adatot tartalmazza?
Generálási hűség	A modell által adott válasz szigorúan a visszakeresett tartalmon alapul-e, vagy a modell kitalál valamit?	A visszakeresett anyag nem említ növekedési rátát, de a modell azt mondja: „5%-kal nőtt” → hűtlen
Válasz helyessége	A végső válasz megegyezik-e a ténnyel (vagy a referencia válasszal)?	A helyes válasz: „4,2 milliárd”, a modell kimenete: „4,2 milliárd” vagy „kb. 4,2 milliárd jüan” – mindkettő helyesnek tekinthető
Elutasítási arány	Ha a tudásbázisban nincs releváns információ, a rendszer képes-e azt mondani, hogy „nem tudom”, ahelyett, hogy találgatna?	Ha a visszakeresés üres vagy alacsony a konfidencia, a rendszer kiadja: „Sajnálom, nem találtam releváns információt”

Egy rendszer lehet nagyon magas visszakeresési találati arányú (mindig megtalálja a releváns bekezdéseket), de alacsony generálási hűségű (mindig hozzátesz valamit), így a végső pontosság mégis rossz lesz. Ezért a pontosság értékelésekor először tisztázni kell, hogy melyik lépést mérjük.

2. A jelenlegi technológiai szinten milyen pontosságot lehet elérni a RAG rendszerekkel?

Nincs egységes szám, de néhány nyilvános kutatás és gyakorlati tapasztalat alapján:

Egyszerű ténykérdések (egy ugrás, a válasz egy bekezdésben megtalálható):
Visszakeresési találati arány: 90–98% (a tudásbázis minőségétől és a keresőtől függően), generálási hűség gondosan megtervezett prompt esetén: 95% felett, így az összesített pontosság 85–95% között lehet.
Többlépcsős következtetés (két vagy több különböző forrásból származó információ kombinálása):
A visszakeresés pontossága drámaian csökken 50–70%-ra, a válasz helyessége pedig csak 40–60% lehet. Ez a RAG jelenlegi fő nehézsége.
Nyílt terület + zajos tudásbázis (pl. hatalmas weboldalak):
A pontosság jelentősen csökken, mert a visszakeresés zajt hozhat be, és a modell könnyen zavarttá válik.

Következtetés: Ellenőrzött környezetben (tiszta, strukturált, megfelelő dokumentum méret) a RAG 90% feletti pontosságot érhet el; komplex, nyílt, többlépcsős következtetést igénylő forgatókönyvekben azonban a pontosság gyakran hagy kívánnivalót maga után, és jelentős optimalizálást igényel.

3. A pontosságot befolyásoló alapvető tényezők

Ha azt tapasztalja, hogy RAG rendszerének pontossága nem kielégítő, általában a következő négy lépést érdemes ellenőrizni:

Maga a tudásbázis
Az adatok elavultak, hiányosak vagy hibásak?
A dokumentumok rendezetlenek (pl. szkennelt anyagok OCR nélkül, táblázatok összezavarodva)?
Darabolás és indexelés
A szövegrészek túl rövidek → kontextus elvesztése; túl hosszúak → zaj bekerülése.
Az embedding modell megfelel-e az adott területre (általános modell rosszul teljesíthet jogi kifejezéseken)?
Visszakeresési stratégia
Csak vektoros visszakeresés használata esetén a pontos kulcsszavak (pl. termék típus) elveszhetnek.
Ranglista újrarendezés hiánya miatt az első találatok között nem releváns elemek lehetnek.
Generálási lépés
A prompt egyértelműen előírja-e: „Csak a megadott anyag alapján válaszolj, ha nem elég, utasítsd el”?
A modell képességei elegendőek-e (a kisebb modellek könnyen figyelmen kívül hagyják a hosszú kontextus részleteit)?

Gyakori tévhit: Az alacsony pontosságot közvetlenül az LLM elégtelen képességének tulajdonítják, pedig a probléma legtöbbször a „visszakeresésben” és a „prompt tervezésben” rejlik.

4. Hogyan viszonyuljunk helyesen a pontossághoz – néhány kulcsfontosságú gyakorlati hozzáállás

1. Tűzzünk ki reális alapvonalakat és elvárásokat

Magas kockázatú területeken (orvosi diagnózis, jogi tanácsadás) a 90%-os pontosság messze nem elég; emberi felülvizsgálatot vagy többszörös ellenőrzést kell bevezetni.
Alacsony kockázatú esetekben (ügyfélszolgálati tartalék, belső tudás keresés) a 80%-os pontosság barátságos „nem tudom” válasszal kombinálva már jelentősen növelheti a hatékonyságot.

2. Ne 100%-ra törekedjünk, hanem „ellenőrizhető pontosságra”

A rendszer automatikusan csatoljon forráshivatkozásokat (melyik cikk, melyik bekezdés).
A felhasználó láthatja az eredeti szöveget, és ellenőrizheti; még ha a válasz néha hibás is, az átláthatóság bizalmat épít.
Vezessünk be konfidencia pontszámot, alacsony pontszám esetén jelezzük: „Ez a válasz alacsony megbízhatóságú, javasoljuk az eredeti dokumentum ellenőrzését.”

3. Tekintsük a pontosságot folyamatos optimalizálás tárgyának, nem egyszeri célnak

Hozzunk létre értékelési csővezetéket: rendszeresen vegyünk ki egy ember által annotált kérdéskészletet, és automatizáltan értékeljük a visszakeresési találati arányt és a generálási hűséget.
Használjunk olyan eszközöket, mint a RAGAS vagy a TruLens a szisztematikus értékeléshez, ne néhány eset alapján döntsünk.
A rossz esetek alapján folyamatosan finomítsuk: darabolási mód, kereső paraméterei, újrarendező modell, prompt.

4. Különböztessük meg a „rendszerhibát” és az „emberi szabványok eltérését”

Néha a rendszer által adott válasz eltér a felhasználó elvárásától, de a tudásbázis tartalma alapján valójában helyes (mert a tudásbázis korlátozott vagy vitatott).
Ilyenkor meg kell határozni: a pontosság a „tudásbázis tényein” vagy a „külsőleg elfogadott tényeken” alapul?

Záró összefoglalás

A tudás alapú kérdés-válasz rendszerek pontossága nem egy statikus, maximális pontszám, hanem a „tudás lefedettség + visszakeresési precizitás + generálási hűség + elutasítási képesség” kombinált képességértéke. Amikor értékeljük, reálisan fel kell ismernünk, hogy a jelenlegi technológia nem tökéletes, de a forráshivatkozással, konfidenciajelzéssel és ember-gép együttműködéssel tervezett rendszerek valódi értéket képviselhetnek az üzleti életben.