Mistoqsijiet ta' Intervista AI 11: Kif Tottimizza RAG?

L-ottimizzazzjoni ta' RAG mhijiex aġġustament ta' stadju wieħed, iżda proċess ta' ottimizzazzjoni tal-katina sħiħa. Hawn taħt, mill-erba' dimensjonijiet ta' ottimizzazzjoni tal-indiċjar tad-dejta, ottimizzazzjoni tal-irkupru, ottimizzazzjoni tal-ġenerazzjoni, u ottimizzazzjoni tal-evalwazzjoni, nagħti strateġiji sistemiċi ta' ottimizzazzjoni, flimkien ma' esperjenzi prattiċi li jistgħu jissemmew f'intervista.

I. Ottimizzazzjoni tal-ġenb tal-indiċjar tad-dejta (it-titjib tal-kwalità tal-"bażi tal-għarfien")

Dan huwa l-aktar post li jiġi injorat iżda li jagħti l-aktar riżultati malajr.

Punt ta' Ottimizzazzjoni	Problema	Metodu Speċifiku	Indikatur tal-Effett
Tqassir ta' Dokumenti	Tabelli u dijagrammi tal-fluss fil-PDF jiġu injorati, jew test ikun imħawwad, ordni ħażina.	Uża libreriji ta' parsing aħjar (bħal `unstructured`, modalità ta' preservazzjoni tal-format ta' `pypdf`); għat-tabelli, estrahom b'`pandas` u ikkonvertihom għal Markdown.	Rata ta' rkupru +5~15%
Daqs ta' Chunk tat-Test	Chunk żgħir wisq jitlef il-kuntest (eż., il-pronom "hu" f'"it-tkabbir tad-dħul tiegħu din is-sena"); chunk kbir wisq iżid l-istorbju fl-irkupru.	Esperimenta b'daqsijiet differenti ta' chunk (256/512/768 token), overlap ta' 10~20%; għal dokumenti twal, aqsam skont il-konfini semantiċi (paragrafi/titli) aktar minn tul fiss.	Rata ta' hit / Fedeltà
Meta-data Miżjuda	Siltiet rilevanti misjuba, iżda ma tistax tittraċċa s-sors jew iż-żmien, jew teħtieġ filtrazzjoni skont id-dominju.	Żid metadata ma' kull chunk: `source` (isem tal-fajl/URL), `timestamp`, `page_num`, `doc_type`. Uża filtri waqt l-irkupru (eż. `doc_type == 'legal'`).	Preċiżjoni tal-filtrazzjoni
Għażla tal-Mudell ta' Embedding	Embedding ġenerali jaħdem ħażin f'oqsma speċjalizzati (mediċina, kodiċi, liġi).	Uża mudelli rfinati għad-dominju (BGE‑large‑zh, GTE‑Qwen2‑7B‑instruct); jew irfina l-mudell ta' embedding tiegħek (b' triplet loss).	MRR@10 fl-irkupru +10~20%

II. Ottimizzazzjoni tal-ġenb tal-irkupru (agħmel il-"tfittxija fil-ktieb" aktar preċiża)

L-irkupru jiddetermina l-kwalità tal-"materjal ta' referenza" mogħti lill-LLM.

Punt ta' Ottimizzazzjoni	Problema	Metodu Speċifiku	Effett
Irkupru Mħallat	Irkupru vettorjali ma jaqbilx termini preċiżi (eż., mudell ta' prodott `ABC-123`); irkupru b'kliem ewlieni ma jifhimx sinonimi.	Uża fl-istess ħin rkupru vettorjali (semantiku) u BM25 (kliem ewlieni), permezz ta' piż (eż., 0.7vettor + 0.3BM25) jew fużjoni b'rerank.	Rata ta' rkupru +10~25%
Rerank	L-ewwel ftit riżultati mir-ritorn tal-irkupru vettorjali mhumiex neċessarjament l-aktar rilevanti, l-10 huwa l-aħjar.	Uża mudell cross‑encoder (eż., `BGE‑reranker-v2`, Cohere Rerank) biex terġa' tikklassifika l-kandidati (eż., l-ewwel 20) u ħu top‑K.	Żieda sinifikanti fir-rata ta' hit (speċjalment top‑1)
Kitba mill-ġdid tal-Mistoqsija	Mistoqsija vaga jew ambigwa f'konversazzjoni b'ħafna dawriet (eż., "X'inhu l-prezz tiegħu?").	Uża LLM biex tikteb mill-ġdid il-mistoqsija oriġinali f'forma aktar adattata għall-irkupru (eż., "X'inhu l-prezz tal-iPhone 15?"); jew uża l-istorja tal-konversazzjoni biex tikkompleta.	Rata ta' rkupru +5~15%
HyDE	Mistoqsija tal-utent qasira wisq jew astratta (eż., "Spjega l-fotosintesi"), irkupru dirett ħażin.	L-ewwel ġiegħel lill-LLM jiġġenera tweġiba ipotetika, uża din it-tweġiba biex tirkupra dokumenti.	Adattat għal dominju miftuħ, iżda mhux għal mistoqsijiet preċiżi fattwali
Aġġustament tal-Quantità ta' Rkupru Top‑K	K żgħir jista' jitlef informazzjoni kritika; K kbir iżid il-konsum ta' token u l-istorbju.	Esperimenta b'K=3/5/10, osserva l-bilanċ bejn ir-rata ta' rkupru u l-fedeltà tat-tweġiba.	Trade‑off bejn effiċjenza u effett

III. Ottimizzazzjoni tal-ġenb tal-ġenerazzjoni (ġiegħel lill-LLM juża sew il-materjal ta' referenza)

Anki jekk l-irkupru huwa preċiż, jekk il-prompt mhux tajjeb jew il-mudell mhuwiex b'saħħtu, ma jgħin xejn.

Punt ta' Ottimizzazzjoni	Problema	Metodu Speċifiku	Effett
Inġinerija tal-Prompt	LLM jinjora l-kontenut irkuprat, jew jivvinta affarijiet.	Struzzjoni ċara: "Ibbaża r-risposta biss fuq il-materjal ta' referenza pprovdut jekk il-materjal ma jkunx biżżejjed jew rilevanti, wieġeb 'M'hemmx informazzjoni biżżejjed'." Żid eżempji b'ftit shots li juru kif tiċċita s-sorsi.	Fedeltà +20~40%
Kompressjoni tal-Kuntest	Il-kontenut irkuprat huwa twil wisq (jaqbeż it-tieqa tal-kuntest tal-mudell), jew ħafna minnu huwa storbju.	Uża `LLMLingua` jew `Kuntest Selettiv` biex tikkompressa, iżżomm l-aktar sentenzi rilevanti qabel ma tibgħathom lill-LLM.	Tnaqqis tar-riskju li tintilef informazzjoni
Aġġornament tal-Mudell LLM	Mudell żgħir (7B) ma jistax iwettaq raġunament kumpless, jew ma jiftakarx kuntest twil.	Ibdel b'mudell aktar b'saħħtu (GPT‑4o, Claude 3.5 Sonnet, Qwen2.5‑72B).	Titjib kbir fl-eżattezza tar-raġunament
Streaming u Ċitazzjonijiet	L-utent ma jistax jivverifika l-kredibilità tat-tweġiba.	Waqt il-ġenerazzjoni, ġiegħel lill-LLM joħroġ `[citazzjoni:1]`, li jikkorrispondi għan-numru tad-dokument irkuprat. In-naħa tas-server żid il-link oriġinali.	Fiduċja tal-utent + it-tfixkil
Kalibrazzjoni tar-Rifjut	Il-mudell jivvinta meta ma jkunx għandu jwieġeb, jew jgħid li ma jafx meta għandu jwieġeb.	Issettja limitu ta' similarità: jekk il-chunk top‑1 irkuprat ikollu similarità tal-kosinu mal-mistoqsija inqas minn 0.7, għid lill-LLM "Il-materjal mhuwiex rilevanti".	Tnaqqis fir-rata ta' alluċinazzjoni

IV. Ġenb tal-Evalwazzjoni u l-Iterazzjoni (tkun taf fejn taġġusta)

Mingħajr kejl, ma tistax tottimizza.

Punt ta' Ottimizzazzjoni	Metodu	Indikatur
Stabbiliment ta' Sett ta' Evalwazzjoni	Ipprepara 100~300 mistoqsijiet reali tal-utent + tweġibiet standard + ID tad-dokumenti korretti għall-irkupru.	Ikopri diffikultajiet differenti, intenzjonijiet differenti.
Evalwazzjoni Awtomatika	Uża RAGAS (Faithfulness, Answer Relevance, Context Recall) jew TruLens.	Tliet indikaturi ewlenin: fedeltà, rilevanza tat-tweġiba, rata ta' rkupru tal-kuntest.
Evalwazzjoni Manwali	Kull ġimgħa, ittestja 20 każ ħażin, analizza t-tip ta' żball (falliment fl-irkupru / żball fil-ġenerazzjoni / nuqqas fil-bażi tal-għarfien).	Prijoritizzazzjoni għat-titjib.
Test A/B	Fl-ambjent ta' produzzjoni, ittestja strateġiji differenti ta' rkupru (eż., BM25 vs rkupru mħallat) f'bins separati.	Indikaturi onlajn: sodisfazzjon tal-utent, rata ta' nuqqas ta' tweġiba.

V. "Esperjenza Prattika" li tista' ssemmi f'intervista (punti bonus)

"Fil-proġett RAG li kont responsabbli għalih, fil-bidu r-rata ta' hit bażi kienet biss 67%. Għamilt tliet affarijiet:
1. Ibdil it-tqassim minn fiss ta' 1024 għal qsim semantiku dinamiku (skont titli + paragrafi), ir-rata ta' hit telgħet għal 74%;
2. Żied taħlita ta' rkupru (vettorjali + BM25) u mudell żgħir ta' rerank, ir-rata ta' hit telgħet għal 83%;
3. Ottimizzazzjoni tal-prompt u obbligu ta' '[Informazzjoni rilevanti mhix misjuba]', ir-rata ta' alluċinazzjoni niżlet minn 22% għal inqas minn 5%.

Barra minn hekk, bnejna pipeline kontinwu ta' evalwazzjoni, qabel kull tibdil imexxu 200 mistoqsija b'punteġġ RAGAS biex niżguraw li m'hemmx tnaqqis fil-prestazzjoni."

Sommarju Finali: Mappa Kompluta ta' Ottimizzazzjoni RAG

Saff tad-dejta ─→ Tindif tad-dokumenti, ottimizzazzjoni tal-chunk, titjib tal-metadata, embedding tad-dominju
Saff tal-irkupru ─→ Irkupru mħallat, rerank, kitba mill-ġdid tal-mistoqsija, HyDE, aġġustament ta' Top-K
Saff tal-ġenerazzjoni ─→ Tisħiħ tal-prompt, rekwiżiti ta' struzzjoni, kompressjoni, ċitazzjonijiet, limitu ta' rifjut
Saff tal-evalwazzjoni ─→ Sett ta' evalwazzjoni, RAGAS, analiżi manwali, esperimenti A/B