AI spurningaröð 11: Hvernig á að fínstilla RAG?

Fínstilling RAG er ekki eitt skref heldur all-línu bestunarferli. Hér að neðan gef ég kerfisbundnar bestunaraðferðir frá fjórum víddum: gagnavísitöluhlið, leitarhlið, framleiðsluhlið, matshlið, ásamt hagnýtri reynslu sem hægt er að nefna í viðtali.

1. Fínstilling gagnavísitöluhliðar (bæta gæði „þekkingargrunns“)

Þetta er oftast vanrækt en gefur mestan árangur.

Bestunarpunktur	Vandamál	Nákvæm aðferð	Áhrifavísir
Skjalatúlkun	Töflur, flæðirit í PDF eru hunsuð, eða texti ruglaður, röð órétt.	Skiptu yfir í betri túlkunarbókasöfn (eins og `unstructured`, `pypdf` með uppsetningarhaldi); fyrir töflur, notaðu `pandas` til að draga út og breyta í Markdown.	Muna hlutfall +5~15%
Textaskiptingarstærð	Chunk of lítil missir samhengi (t.d. „hann“ í „hann jók tekjur í ár“); chunk of stór velur hávaða.	Prófaðu mismunandi chunk size (256/512/768 token), overlap 10~20%; fyrir löng skjöl, skiptu eftir merkingarlegum mörkum (málsgrein/fyrirsögn) í stað fastrar lengdar.	Hitt hlutfall / Trúmennska
Viðbót lýsigagna	Fann viðeigandi málsgrein en get ekki rakið uppruna eða tíma, eða þarf að sía eftir sviði.	Bættu lýsigögnum við hvert chunk: `source` (skráarheiti/URL), `timestamp`, `page_num`, `doc_type`. Notaðu síu við leit (t.d. `doc_type == 'legal'`).	Nákvæmni síunar
Val á innfellingarlíkani	Almenn innfelling gengur illa á sérhæfðum sviðum (læknisfræði, kóði, lögfræði).	Notaðu sviðsfínstillt líkön (BGE‑large‑zh, GTE‑Qwen2‑7B‑instruct); eða fínstilltu eigið innfellingarlíkan (með triplet loss).	MRR@10 +10~20%

2. Fínstilling leitarhliðar (gera „fletingu“ nákvæmari)

Leit ákvarðar gæði „viðmiðunarefnis“ sem gefið er LLM.

Bestunarpunktur	Vandamál	Nákvæm aðferð	Áhrif
Blandað leit	Vektorleit getur ekki passað nákvæm hugtök (t.d. vörulíkan `ABC-123`), stikkorðaleit skilur ekki samheiti.	Notaðu bæði vektorleit (merkingarlega) og BM25 (stikkorð), með vigtun (t.d. 0.7vektor + 0.3BM25) eða rerank sameiningu.	Muna hlutfall +10~25%
Endurröðun (Rerank)	Fyrstu niðurstöður vektorleitar eru ekki alltaf mest viðeigandi, sú 10. er best.	Notaðu cross-encoder líkan (eins og `BGE‑reranker-v2`, Cohere Rerank) til að endurskora frambjóðendur (t.d. fyrstu 20) og taktu top‑K.	Hitt hlutfall verulega bætt (sérstaklega top‑1)
Fyrirspurnarendurskrift	Spurning notanda er óljós eða vísar til fyrri umræðu („Hvað kostar hann?“).	Notaðu LLM til að umrita upprunalegu spurninguna í form sem hentar leit (t.d. „Hvað kostar iPhone 15?“); eða notaðu samtals sögu til að fylla upp.	Muna hlutfall +5~15%
HyDE	Spurning notanda er of stutt eða óhlutbundin (t.d. „Ræddu um ljóstillífun“), bein leit gengur illa.	Láttu LLM búa til hugmyndasvar fyrst, notaðu það til að leita í skjölum.	Hentar fyrir opinn vettvang, ekki fyrir nákvæmar staðreyndaspurningar
Leitarfjöldi Top‑K	Of lítið K getur misst af lykilupplýsingum; of stórt K eykur token notkun og hávaða.	Prófaðu K=3/5/10, fylgstu með jafnvægi milli muna hlutfalls og trúmennsku svars.	Skipta máli milli skilvirkni og árangurs

3. Fínstilling framleiðsluhliðar (láta LLM nota viðmiðunarefni vel)

Jafnvel þótt leit sé nákvæm, ef leiðbeiningar eða líkan er slæmt, gengur ekkert.

Bestunarpunktur	Vandamál	Nákvæm aðferð	Áhrif
Leiðbeiningaverkfræði	LLM hunsar leitarinnihald, eða smíðar upplýsingar.	Skýr fyrirmæli: „Svaraðu eingöngu byggt á eftirfarandi viðmiðunarefni. Ef efni er ófullnægjandi eða óviðeigandi, svaraðu 'Ekki nægar upplýsingar'.“ Bættu við few-shot dæmum sem sýna hvernig á að vitna í heimild.	Trúmennska +20~40%
Samhengisþjöppun	Leitarinnihald er of langt (meira en samhengisgluggi líkans) eða að mestu hávaði.	Notaðu `LLMLingua` eða `valið samhengi` til að þjappa, haltu viðeigandi setningum áður en þú sendir til LLM.	Minnkar hættu á upplýsingatapi
Uppfærsla LLM líkans	Lítið líkan (7B) getur ekki framkvæmt flókna röksemdafærslu, eða muna langt samhengi.	Skiptu yfir í sterkara líkan (GPT‑4o, Claude 3.5 Sonnet, Qwen2.5‑72B).	Nákvæmni röksemdafærslu verulega bætt
Streymi og tilvísanir	Notandi getur ekki staðfest áreiðanleika svars.	Láttu LLM gefa `[citation:1]` meðan á framleiðslu stendur, sem samsvarar númeri leitarskjals. Bakendi bætir við tengli á upprunalegt skjal.	Traust notanda + auðvelt að kemba
Kvörðun á neitun	Líkan smíðar upplýsingar þegar það ætti ekki, eða segist ekki vita þegar það ætti að svara.	Stilltu líkindisþröskuld: ef top‑1 chunk hefur cosínuslíkindi undir 0.7 við spurningu, segðu LLM „efni óviðeigandi“.	Minnkar ofskynjanir

4. Mats- og endurtekningarhlið (vita hvert á að fínstilla)

Engin mæling = engin bestun.

Bestunarpunktur	Aðferð	Vísir
Byggja matsþýði	Undirbúðu 100~300 raunverulegar notendaspurningar + staðlað svar + rétt leitarskjal ID.	Dekki mismunandi erfiðleikastig og tilgang.
Sjálfvirkt mat	Notaðu RAGAS (Trúmennska, Svörunarviðeigandi, Samhengisendurköllun) eða TruLens.	Þrjú kjarna vísir: trúmennska, svörunarviðeigandi, samhengisendurköllun.
Mannlegt mat	Viku próf 20 slæm tilvik, greindu villutegund (leit mistókst / framleiðsluvilla / þekkingargrunnur vantar).	Röðun forgangsröðunar.
A/B prófun	Í framleiðsluumhverfi, prófaðu mismunandi leitaraðferðir í hólfum (t.d. BM25 vs blönduð leit).	Netvísar: ánægja notanda, ekkert svar hlutfall.

5. „Hagnýt reynsla“ sem hægt er að nefna í viðtali (bónusstig)

„Í RAG verkefninu sem ég stjórnaði var upphaflegt grunnhitt hlutfall 67%. Ég gerði þrjá hluti:
1. Breytti skiptingu úr föstum 1024 í kraftmikla merkingarlega skiptingu (eftir fyrirsögn+grein), hitt hlutfall hækkaði í 74%;
2. Bætti við blandaðri leit (vektor + BM25) og litlu endurröðunarlíkani, hitt hlutfall hækkaði í 83%;
3. Fínstillti leiðbeiningar og krafðist að gefa '[Engar viðeigandi upplýsingar]', ofskynjanahlutfall lækkaði úr 22% í undir 5%.

Að auki byggðum við stöðuga matslínu, keyrðum RAGAS skor fyrir 200 spurningar fyrir hverja breytingu til að tryggja enga skerðingu.“

Loka samantekt: Heildar RAG fínstillingarleiðarkort

Gögn → Skjalaþrif, skiptingarbestun, lýsigagnaaukning, sviðsinnfelling
Leit → Blandað leit, endurröðun, fyrirspurnarendurskrift, HyDE, Top-K bestun
Framleiðsla → Leiðbeiningastyrking, fyrirmæli, þjöppun, tilvísanir, neitunarþröskuldur
Mat → Matsþýði, RAGAS, mannleg greining, A/B tilraun