AI serieko elkarrizketa 9: Nola baloratu jakintza-galdera erantzun sistemaren zehaztasuna?

Zehaztasuna jakintza-galdera erantzun sistemaren oinarrizko bizibidea da, batez ere testuinguru serioetan (medikuntza, legea, enpresa barneko laguntza) aplikatu nahi denean. Nire iritzia laburbil daiteke: zehaztasuna dimentsio anitzeko kontzeptua da, ezin da zenbaki bakar batean ikusi, baizik eta sistemaren gaitasuna, atazaren zailtasuna eta errorearen kostua kontuan hartuta ebaluatu behar da.

Hona hemen lau mailetako azalpena:

I. Zehaztasuna ez da "zuzena/okerra" bakarrik

Sailkapen-ataza tradizionaletan (adibidez, irudi ezagutzea) zehaztasuna argia da. Baina jakintza-galdera erantzun sistemetan, ohiko azpimaterialak honako hauek dira:

Dimentsioa	Esanahia	Ebaluazio adibidea
Bilaketaren asmatze-tasa	Sistemak ezagutza-basean erantzun zuzena duen dokumentu zatia aurki dezake?	Erabiltzaileak "A konpainiaren 2024ko diru-sarrerak" galdetzen duenean, sistemak datu hori duen finantza-txostenaren zati hori bilatu dezake?
Sorkuntzaren leialtasuna	Ereduak sortutako erantzuna aurkitu duen edukiaren araberakoa da, eta ez bere kabuz asmatua?	Bilatutako materialak ez badu "hazkunde-tasa" aipatzen, baina modeloak "%5 hazi da" esaten badu → ez da leiala
Erantzunaren zuzentasuna	Azken erantzuna egitatearekin (edo erreferentziazko erantzunarekin) bat dator?	Erantzun zuzena "42 milioi" bada, modeloak "42 milioi" edo "42 milioi euro inguru" esatea zuzena da
Uko egiteko tasa	Ezagutza-basean informazio egokirik ez dagoenean, sistemak "ez dakit" esan dezake, asmatu beharrean?	Bilaketa hutsa edo konfiantza baxua denean, "Sentitzen dut, ez dut informazio egokirik aurkitu" irteera

Sistema batek bilaketaren asmatze-tasa altua izan dezake (beti aurkitzen du pasarte egokia), baina sorkuntzaren leialtasun baxua (beti gehitzen du informazioa), eta azken zehaztasuna eskasa izango da. Beraz, zehaztasuna ikustean argitu behar da zein urrats neurtzen ari zaren.

II. Egungo teknologia mailan, RAG sistemen zehaztasuna zenbaterainokoa da?

Ez dago zenbaki uniformerik, baina ikerketa eta praktika publiko batzuk erreferentzia gisa har daitezke:

Egitatezko galdera sinpleak (jauzi bakarra, erantzuna zuzenean agertzen da dokumentu batean):
Bilaketaren asmatze-tasa %90-98ra irits daiteke (ezagutza-basearen kalitatearen eta bilatzailearen arabera), sorkuntzaren leialtasuna %95+ diseinu zainduko promptekin, eta zehaztasun orokorra %85-95 artean egon daiteke.
Jauzi anitzeko inferentzia (bi edo gehiago dokumentu zatietako informazioa konbinatu behar):
Bilaketaren zehaztasuna %50-70era jaisten da, eta erantzunaren zuzentasuna %40-60 baino ez da. Hau da RAGen erronka nagusia.
Eremu irekia + ezagutza-base zaratatsua (adibidez, web orrialde ugari):
Zehaztasuna nabarmen jaisten da, bilaketak zarata sar dezakeelako eta modeloak erraz interferi daitekeelako.

Ondorioa: Ingurune kontrolatuan (garbia, egituratua, dokumentuen tamaina egokia) RAGek %90 baino gehiagoko zehaztasuna lor dezake; baina konplexua, irekia eta urrats anitzeko inferentzia behar duten egoeretan, zehaztasuna askotan ez da pozgarria eta optimizazio handia behar du.

III. Zehaztasunean eragiten duten faktore nagusiak

Zure RAG sistemaren zehaztasuna ez bada nahikoa, normalean lau urrats hauek aztertu behar dira:

Ezagutza-basea bera
Datuak zaharkituta, osatugabeak edo okerrak al dira?
Dokumentuak nahasiak al dira (adibidez, eskaneatutakoak OCR gabe, taulak deskonposatuta)?
Zatitzea eta indexazioa
Testu-zatiak laburregiak → testuingurua galtzen da; luzeegiak → zarata sartzen da.
Enbebitze-modeloa zure arlorako egokia al da (modelo orokorrek lege-terminoetan emaitza txarrak eman ditzakete)?
Bilaketa-estrategia
Bektore-bilaketa bakarrik erabiltzeak gako-hitz zehatzak (adibidez, produktu-eredua) alde batera utz ditzake.
Berrantolatzeko urratsik ez badago, lehen lerroan gai ez diren elementuak ager daitezke.
Sorkuntza-urratsa
Prompt-ak argi eskatzen al du "emandako materialaren arabera bakarrik erantzun, nahikoa ez bada ukatu"?
Modeloaren gaitasuna nahikoa al da (eredu txikiek testuinguru luzeetako xehetasunak alde batera utz ditzakete)?

Ohiko akatsa: Zehaztasun baxua LLMren gaitasun faltari egoztea, baina arazo gehienak "bilaketa" eta "prompt diseinuan" daude.

IV. Nola "ikusi" zehaztasuna behar bezala – praktikako jarrera gako batzuk

1. Helburu eta itxaropen arrazoizkoak ezarri

Arrisku handiko eremuetan (diagnosi medikoa, aholku juridikoa) %90eko zehaztasuna ere ez da nahikoa; giza berrikuspena edo egiaztapen anitza sartu behar da.
Arrisku baxuko egoeretan (bezeroarentzako laguntza, barneko bilaketa), %80eko zehaztasunak eta "ez dakit" erantzun jatorrak eraginkortasuna asko hobetu dezakete.

2. Ez %100era jo, baizik eta "egiaztatu daitekeen zehaztasuna" bilatu

Sistemak iturri automatikoak gehitzea (zein artikulu, zein pasarte).
Erabiltzaileak jatorrizko testua ikus dezake egiaztatzeko, nahiz eta erantzunak noizean behin huts egin, gardentasunak konfiantza sortzen du.
Konfiantza-puntuazioa gehitzea, puntuazio baxua denean "erantzun honek fidagarritasun baxua du, jatorrizko dokumentua kontsultatzea gomendatzen da" adieraziz.

3. Zehaztasuna etengabe optimizatzeko helburutzat hartu, behin betiko helburu gisa ez

Ebaluazio-hoditeria sortzea: aldian behin giza etiketatutako galderak atera eta bilaketaren asmatze-tasa eta sorkuntzaren leialtasuna automatikoki ebaluatu.
RAGAS, TruLens bezalako tresnak erabili ebaluazio sistematikoa egiteko, kasu gutxi batzuetan oinarritu beharrean.
Bad case-en arabera etengabe egokitu: zatiketa modua, bilatzaile parametroak, berrantolatzeko modeloa, prompt-ak.

4. Bereizi "sistemaren akatsa" eta "giza estandarrekiko desadostasuna"

Batzuetan sistemak emandako erantzuna erabiltzailearen itxaropenarekin bat ez datorren arren, ezagutza-baseko materialaren arabera zuzena da (ezagutza-baseak mugak edo eztabaidak dituelako).
Kasu horretan, zehaztasuna "ezagutza-baseko egitateetan" oinarritzen ala "kanpoko onartutako egitateetan" oinarritzen den definitu behar da.

Azken laburpena

Jakintza-galdera erantzun sistemaren zehaztasuna ez da puntuazio perfektu estatiko bat, baizik eta "ezagutza-estaldura + bilaketa zehaztasuna + sorkuntza leialtasuna + uko egiteko gaitasuna" adierazten duen gaitasun integrala. Ikusteko, kontzienteki onartu behar da egungo teknologiak ezin duela perfektua izan, baina iturri-atxikipenaren, konfiantza-adierazpenaren eta giza-makina lankidetzaren bidez, negozioan balioa eman dezake.