AI elkarrizketa saileko 11. galdera: Nola optimizatu RAG?
RAG-aren optimizazioa ez da etapa bakar baten doikuntza, baizik eta kate osoaren optimizazio prozesu bat. Jarraian, datuen indexazioa, bilaketa, sorkuntza eta ebaluazioa lau dimentsioetatik, optimizazio estrategia sistematikoak emango ditut, eta elkarrizketetan aipa daitezkeen esperientzia praktikoak erantsiko ditut.
1. Datuen indexazio-aldeko optimizazioa ("ezagutza-basearen" kalitatea hobetu)
Hau da gehien ahazten den baina eragin azkarrena duen lekua.
| Optimizazio-puntua | Arazoaren fenomenoa | Zehaztutako neurria | Eragin-adierazlea |
|---|---|---|---|
| Dokumentu analisia | PDF-eko taulak, fluxu-diagramak baztertuta, edo testua nahasia, ordena okerra. | Analisi liburutegi hobeak erabili (adibidez, unstructured, pypdf-ren diseinu-gordetze modua); tauletarako pandas erabiliz Markdown bihurtu. |
Oroitzapen-tasa +5~15% |
| Testu zatitzearen tamaina | Chunk txikiegiak testuingurua galtzen du (adibidez, "bere diru-sarrerak hazita" atalean "bere" erreferentzia galtzea); chunk handiegiek bilaketa-zarata gehitzen dute. | Chunk tamaina desberdinak esperimentatu (256/512/768 token), gainjartzea %10-20; dokumentu luzeetarako, muga semantikoen arabera zatitu (paragrafoa/izenburua) luzera finkoaren ordez. | Kolpe-tasa / fideltasuna |
| Metadatuen eransketa | Atal erlazionatua aurkitu baina iturria edo denbora ezin jarraitu, edo eremuz iragazi behar. | Chunk bakoitzari metadatuak gehitu: source (fitxategia/URLa), timestamp, page_num, doc_type. Bilaketan iragazkiak erabili (adibidez, doc_type == 'legal'). |
Iragazketa zehaztasuna |
| Txertatze-ereduaren aukeraketa | Txertatze orokorrak eremu bertikaletan (medikuntza, kode, legea) gaizki funtzionatzen du. | Eremuan doitutako ereduak erabili (BGE‑large‑zh, GTE‑Qwen2‑7B‑instruct); edo norberaren txertatze-eredua finetune (triplet loss erabiliz). | Bilaketa MRR@10 +10~20% |
2. Bilaketa-aldeko optimizazioa ("liburua irakurtzea" zehatzagoa izan dadin)
Bilaketak erabakitzen du LLM-ari emandako "erreferentzia materialen" kalitatea.
| Optimizazio-puntua | Arazoaren fenomenoa | Zehaztutako neurria | Eragina |
|---|---|---|---|
| Bilaketa mistoa | Bektore-bilaketak ezin ditu termino zehatzak parekatu (adibidez, produktu-eredua ABC-123), gako-hitz bilaketak ezin ditu sinonimoak ulertu. |
Bektore-bilaketa (semantikoa) eta BM25 (gako-hitzak) aldi berean erabili, ponderazioz (adibidez, 0.7bektore + 0.3BM25) edo rerank bidez fusionatu. | Oroitzapen-tasa +10~25% |
| Birordena (Rerank) | Bektore-bilaketaren lehen emaitzak ez dira beti garrantzitsuenak; 10. emaitza hobea izan daiteke. | Cross‑encoder eredua erabili (adibidez, BGE‑reranker-v2, Cohere Rerank) hautagaien multzoa (lehen 20) berriz puntuatzeko, top‑K hartu. |
Kolpe-tasa nabarmen hobetu (batez ere top‑1) |
| Kontsulta berridaztea | Erabiltzailearen galdera lausoa da edo elkarrizketa anitzetan erreferentziak argi ez daude ("Bere prezioa?"). | LLM erabili jatorrizko galdera bilaketarako egokiagoa den forma batean berridazteko (adibidez, "iPhone 15-aren prezioa zenbatekoa da?"); edo elkarrizketa-historia erabili osatzeko. | Oroitzapen-tasa +5~15% |
| HyDE | Erabiltzailearen galdera laburregia edo abstraktuegia da (adibidez, "fotosintesia azaldu"), bilaketa zuzena txarra. | Lehenik LLM-ari hipotesi-erantzun bat sortzea eskatu, gero erantzun hori erabili dokumentuak bilatzeko. | Eremu irekietarako egokia, baina ez zehatzak diren galdetarako |
| Bilaketa kopurua Top‑K doitzea | K txikiegiak informazio gakoa gal dezake; K handiegiak token kontsumoa eta zarata handitzen ditu. | K=3/5/10 esperimentatu, bilaketa-tasaren eta erantzunaren fideltasunaren arteko oreka behatu. | Eraginkortasuna eta eragina trade‑off |
3. Sorkuntza-aldeko optimizazioa (LLM-k erreferentziak ondo erabil ditzan)
Bilaketa zehatza bada ere, prompt-a ona ez bada edo eredua ez bada egokia, ez du balio.
| Optimizazio-puntua | Arazoaren fenomenoa | Zehaztutako neurria | Eragina |
|---|---|---|---|
| Prompt ingeniaritza | LLM-k bilatutako edukia alde batera uzten du, edo asmatu egiten du. | Agindu argia: "Bakarrik emandako erreferentzia materialetan oinarrituta erantzun. Materiala nahikoa ez bada edo erlazionatuta ez badago, esan 'Ez dago informazio nahikorik'." Gehitu few‑shot adibideak iturriak nola aipatu erakusteko. | Fideltasuna +20~40% |
| Testuinguruaren konpresioa | Bilatutako edukia luzeegia da (ereduaren leihoa gainditzen du) edo gehiena zarata da. | LLMLingua edo testuinguru hautatzailea erabili konprimitzeko, esaldi garrantzitsuenak bakarrik gorde LLM-ari eman aurretik. |
Informazioa galtzeko arriskua murriztu |
| LLM ereduaren bertsio-berritzea | Eredu txikiek (7B) ezin dute arrazoiketa konplexurik egin, edo testuinguru luzeak ezin dituzte gogoratu. | Eredu indartsuagoetara aldatu (GPT‑4o, Claude 3.5 Sonnet, Qwen2.5‑72B). | Arrazoiketa zehaztasuna asko hobetu |
| Streaming eta aipamenak | Erabiltzaileak ezin du erantzunaren fidagarritasuna egiaztatu. | Sorkuntzan LLM-k [citation:1] ateratzeko eskatu, bilatutako dokumentuaren zenbakiari dagokiona. Atzealdean jatorrizko esteka erantsi. |
Erabiltzailearen konfiantza + arazketa |
| Erantzuteari uko egiteko kalibrazioa | Ereduak asmatu egiten du erantzun behar ez duenean, edo ez daki esaten jakin behar duenean. | Antzekotasun-atalasea ezarri: bilatutako top‑1 chunk-aren eta galdetutakoaren arteko kosinu antzekotasuna 0.7tik behera badago, LLM-ari "materiala ez da garrantzitsua" esan. | Halusinazio-tasa murriztu |
4. Ebaluazioa eta iterazioa (nora doitu jakiteko)
Neurketarik gabe ezin da optimizatu.
| Optimizazio-puntua | Neurria | Adierazlea |
|---|---|---|
| Ebaluazio-multzoa sortu | 100~300 erabiltzaile-galdera erreal prestatu + erantzun estandarrak + bilaketa dokumentu ID zuzenak. | Maila desberdinetako zailtasunak eta intentzioak estali. |
| Ebaluazio automatizatua | RAGAS (Faithfulness, Answer Relevance, Context Recall) edo TruLens erabili. | Hiru adierazle nagusi: fideltasuna, erantzunaren garrantzia, testuinguruaren oroitzapena. |
| Giza ebaluazioa | Astero 20 kasu txar aztertu, errore motak identifikatu (bilaketa hutsa / sorkuntza errorea / ezagutza-basean falta). | Hobekuntza-lehentasunak ordenatu. |
| A/B probak | Ekoizpenean, bilaketa estrategia desberdinak probatu talde banatan (adibidez, BM25 vs bilaketa mistoa). | Online adierazleak: erabiltzailearen asebetetzea, erantzun gabeko tasa. |
5. Elkarrizketetan esan daitezkeen "esperientzia praktikoak" (gehigarria)
"Nik kudeatutako RAG proiektuan, hasierako kolpe-tasa %67 zen. Hiru gauza egin nituen:
1. Zatitzea 1024 finkotik dinamiko semantikora aldatu (izenburua+paragrafoa), kolpe-tasa %74ra igo;
2. Bilaketa mistoa (bektore + BM25) eta birordena-eredu txiki bat gehitu, kolpe-tasa %83ra igo;
3. Prompt-a optimizatu eta '[Ez da informaziorik aurkitu]' behartu, halusinazio-tasa %22tik %5era jaitsi.Gainera, etengabeko ebaluazio-kanal bat eraiki genuen, aldaketa bakoitzaren aurretik 200 galderen RAGAS puntuazioak exekutatuz, atzerakadarik ez zegoela ziurtatzeko."
Azken laburpena: RAG optimizazio-bide orokor bat
Datu-geruza ─→ Dokumentuen garbiketa, zatitzearen optimizazioa, metadatuen hobekuntza, domeinuko txertatzea
Bilaketa-geruza ─→ Bilaketa mistoa, rerank, kontsulta berridaztea, HyDE, Top-K doikuntza
Sorkuntza-geruza ─→ Prompt-aren indartzea, aginduen eskaera, konpresioa, aipamenak, uko egiteko atalasea
Ebaluazio-geruza ─→ Ebaluazio-multzoa, RAGAS, giza analisia, A/B esperimentuak
评论
暂无已展示的评论。
发表评论(匿名)