AI elkarrizketa saileko 11. galdera: Nola optimizatu RAG?

RAG-aren optimizazioa ez da etapa bakar baten doikuntza, baizik eta kate osoaren optimizazio prozesu bat. Jarraian, datuen indexazioa, bilaketa, sorkuntza eta ebaluazioa lau dimentsioetatik, optimizazio estrategia sistematikoak emango ditut, eta elkarrizketetan aipa daitezkeen esperientzia praktikoak erantsiko ditut.

1. Datuen indexazio-aldeko optimizazioa ("ezagutza-basearen" kalitatea hobetu)

Hau da gehien ahazten den baina eragin azkarrena duen lekua.

Optimizazio-puntua	Arazoaren fenomenoa	Zehaztutako neurria	Eragin-adierazlea
Dokumentu analisia	PDF-eko taulak, fluxu-diagramak baztertuta, edo testua nahasia, ordena okerra.	Analisi liburutegi hobeak erabili (adibidez, `unstructured`, `pypdf`-ren diseinu-gordetze modua); tauletarako `pandas` erabiliz Markdown bihurtu.	Oroitzapen-tasa +5~15%
Testu zatitzearen tamaina	Chunk txikiegiak testuingurua galtzen du (adibidez, "bere diru-sarrerak hazita" atalean "bere" erreferentzia galtzea); chunk handiegiek bilaketa-zarata gehitzen dute.	Chunk tamaina desberdinak esperimentatu (256/512/768 token), gainjartzea %10-20; dokumentu luzeetarako, muga semantikoen arabera zatitu (paragrafoa/izenburua) luzera finkoaren ordez.	Kolpe-tasa / fideltasuna
Metadatuen eransketa	Atal erlazionatua aurkitu baina iturria edo denbora ezin jarraitu, edo eremuz iragazi behar.	Chunk bakoitzari metadatuak gehitu: `source` (fitxategia/URLa), `timestamp`, `page_num`, `doc_type`. Bilaketan iragazkiak erabili (adibidez, `doc_type == 'legal'`).	Iragazketa zehaztasuna
Txertatze-ereduaren aukeraketa	Txertatze orokorrak eremu bertikaletan (medikuntza, kode, legea) gaizki funtzionatzen du.	Eremuan doitutako ereduak erabili (BGE‑large‑zh, GTE‑Qwen2‑7B‑instruct); edo norberaren txertatze-eredua finetune (triplet loss erabiliz).	Bilaketa MRR@10 +10~20%

2. Bilaketa-aldeko optimizazioa ("liburua irakurtzea" zehatzagoa izan dadin)

Bilaketak erabakitzen du LLM-ari emandako "erreferentzia materialen" kalitatea.

Optimizazio-puntua	Arazoaren fenomenoa	Zehaztutako neurria	Eragina
Bilaketa mistoa	Bektore-bilaketak ezin ditu termino zehatzak parekatu (adibidez, produktu-eredua `ABC-123`), gako-hitz bilaketak ezin ditu sinonimoak ulertu.	Bektore-bilaketa (semantikoa) eta BM25 (gako-hitzak) aldi berean erabili, ponderazioz (adibidez, 0.7bektore + 0.3BM25) edo rerank bidez fusionatu.	Oroitzapen-tasa +10~25%
Birordena (Rerank)	Bektore-bilaketaren lehen emaitzak ez dira beti garrantzitsuenak; 10. emaitza hobea izan daiteke.	Cross‑encoder eredua erabili (adibidez, `BGE‑reranker-v2`, Cohere Rerank) hautagaien multzoa (lehen 20) berriz puntuatzeko, top‑K hartu.	Kolpe-tasa nabarmen hobetu (batez ere top‑1)
Kontsulta berridaztea	Erabiltzailearen galdera lausoa da edo elkarrizketa anitzetan erreferentziak argi ez daude ("Bere prezioa?").	LLM erabili jatorrizko galdera bilaketarako egokiagoa den forma batean berridazteko (adibidez, "iPhone 15-aren prezioa zenbatekoa da?"); edo elkarrizketa-historia erabili osatzeko.	Oroitzapen-tasa +5~15%
HyDE	Erabiltzailearen galdera laburregia edo abstraktuegia da (adibidez, "fotosintesia azaldu"), bilaketa zuzena txarra.	Lehenik LLM-ari hipotesi-erantzun bat sortzea eskatu, gero erantzun hori erabili dokumentuak bilatzeko.	Eremu irekietarako egokia, baina ez zehatzak diren galdetarako
Bilaketa kopurua Top‑K doitzea	K txikiegiak informazio gakoa gal dezake; K handiegiak token kontsumoa eta zarata handitzen ditu.	K=3/5/10 esperimentatu, bilaketa-tasaren eta erantzunaren fideltasunaren arteko oreka behatu.	Eraginkortasuna eta eragina trade‑off

3. Sorkuntza-aldeko optimizazioa (LLM-k erreferentziak ondo erabil ditzan)

Bilaketa zehatza bada ere, prompt-a ona ez bada edo eredua ez bada egokia, ez du balio.

Optimizazio-puntua	Arazoaren fenomenoa	Zehaztutako neurria	Eragina
Prompt ingeniaritza	LLM-k bilatutako edukia alde batera uzten du, edo asmatu egiten du.	Agindu argia: "Bakarrik emandako erreferentzia materialetan oinarrituta erantzun. Materiala nahikoa ez bada edo erlazionatuta ez badago, esan 'Ez dago informazio nahikorik'." Gehitu few‑shot adibideak iturriak nola aipatu erakusteko.	Fideltasuna +20~40%
Testuinguruaren konpresioa	Bilatutako edukia luzeegia da (ereduaren leihoa gainditzen du) edo gehiena zarata da.	`LLMLingua` edo `testuinguru hautatzailea` erabili konprimitzeko, esaldi garrantzitsuenak bakarrik gorde LLM-ari eman aurretik.	Informazioa galtzeko arriskua murriztu
LLM ereduaren bertsio-berritzea	Eredu txikiek (7B) ezin dute arrazoiketa konplexurik egin, edo testuinguru luzeak ezin dituzte gogoratu.	Eredu indartsuagoetara aldatu (GPT‑4o, Claude 3.5 Sonnet, Qwen2.5‑72B).	Arrazoiketa zehaztasuna asko hobetu
Streaming eta aipamenak	Erabiltzaileak ezin du erantzunaren fidagarritasuna egiaztatu.	Sorkuntzan LLM-k `[citation:1]` ateratzeko eskatu, bilatutako dokumentuaren zenbakiari dagokiona. Atzealdean jatorrizko esteka erantsi.	Erabiltzailearen konfiantza + arazketa
Erantzuteari uko egiteko kalibrazioa	Ereduak asmatu egiten du erantzun behar ez duenean, edo ez daki esaten jakin behar duenean.	Antzekotasun-atalasea ezarri: bilatutako top‑1 chunk-aren eta galdetutakoaren arteko kosinu antzekotasuna 0.7tik behera badago, LLM-ari "materiala ez da garrantzitsua" esan.	Halusinazio-tasa murriztu

4. Ebaluazioa eta iterazioa (nora doitu jakiteko)

Neurketarik gabe ezin da optimizatu.

Optimizazio-puntua	Neurria	Adierazlea
Ebaluazio-multzoa sortu	100~300 erabiltzaile-galdera erreal prestatu + erantzun estandarrak + bilaketa dokumentu ID zuzenak.	Maila desberdinetako zailtasunak eta intentzioak estali.
Ebaluazio automatizatua	RAGAS (Faithfulness, Answer Relevance, Context Recall) edo TruLens erabili.	Hiru adierazle nagusi: fideltasuna, erantzunaren garrantzia, testuinguruaren oroitzapena.
Giza ebaluazioa	Astero 20 kasu txar aztertu, errore motak identifikatu (bilaketa hutsa / sorkuntza errorea / ezagutza-basean falta).	Hobekuntza-lehentasunak ordenatu.
A/B probak	Ekoizpenean, bilaketa estrategia desberdinak probatu talde banatan (adibidez, BM25 vs bilaketa mistoa).	Online adierazleak: erabiltzailearen asebetetzea, erantzun gabeko tasa.

5. Elkarrizketetan esan daitezkeen "esperientzia praktikoak" (gehigarria)

"Nik kudeatutako RAG proiektuan, hasierako kolpe-tasa %67 zen. Hiru gauza egin nituen:
1. Zatitzea 1024 finkotik dinamiko semantikora aldatu (izenburua+paragrafoa), kolpe-tasa %74ra igo;
2. Bilaketa mistoa (bektore + BM25) eta birordena-eredu txiki bat gehitu, kolpe-tasa %83ra igo;
3. Prompt-a optimizatu eta '[Ez da informaziorik aurkitu]' behartu, halusinazio-tasa %22tik %5era jaitsi.

Gainera, etengabeko ebaluazio-kanal bat eraiki genuen, aldaketa bakoitzaren aurretik 200 galderen RAGAS puntuazioak exekutatuz, atzerakadarik ez zegoela ziurtatzeko."

Azken laburpena: RAG optimizazio-bide orokor bat

Datu-geruza ─→ Dokumentuen garbiketa, zatitzearen optimizazioa, metadatuen hobekuntza, domeinuko txertatzea
Bilaketa-geruza ─→ Bilaketa mistoa, rerank, kontsulta berridaztea, HyDE, Top-K doikuntza
Sorkuntza-geruza ─→ Prompt-aren indartzea, aginduen eskaera, konpresioa, aipamenak, uko egiteko atalasea
Ebaluazio-geruza ─→ Ebaluazio-multzoa, RAGAS, giza analisia, A/B esperimentuak