Mistoqsijiet ta' Intervista AI 11: Kif Tottimizza RAG?
L-ottimizzazzjoni ta' RAG mhijiex aġġustament ta' stadju wieħed, iżda proċess ta' ottimizzazzjoni tal-katina sħiħa. Hawn taħt, mill-erba' dimensjonijiet ta' ottimizzazzjoni tal-indiċjar tad-dejta, ottimizzazzjoni tal-irkupru, ottimizzazzjoni tal-ġenerazzjoni, u ottimizzazzjoni tal-evalwazzjoni, nagħti strateġiji sistemiċi ta' ottimizzazzjoni, flimkien ma' esperjenzi prattiċi li jistgħu jissemmew f'intervista.
I. Ottimizzazzjoni tal-ġenb tal-indiċjar tad-dejta (it-titjib tal-kwalità tal-"bażi tal-għarfien")
Dan huwa l-aktar post li jiġi injorat iżda li jagħti l-aktar riżultati malajr.
| Punt ta' Ottimizzazzjoni | Problema | Metodu Speċifiku | Indikatur tal-Effett |
|---|---|---|---|
| Tqassir ta' Dokumenti | Tabelli u dijagrammi tal-fluss fil-PDF jiġu injorati, jew test ikun imħawwad, ordni ħażina. | Uża libreriji ta' parsing aħjar (bħal unstructured, modalità ta' preservazzjoni tal-format ta' pypdf); għat-tabelli, estrahom b'pandas u ikkonvertihom għal Markdown. |
Rata ta' rkupru +5~15% |
| Daqs ta' Chunk tat-Test | Chunk żgħir wisq jitlef il-kuntest (eż., il-pronom "hu" f'"it-tkabbir tad-dħul tiegħu din is-sena"); chunk kbir wisq iżid l-istorbju fl-irkupru. | Esperimenta b'daqsijiet differenti ta' chunk (256/512/768 token), overlap ta' 10~20%; għal dokumenti twal, aqsam skont il-konfini semantiċi (paragrafi/titli) aktar minn tul fiss. | Rata ta' hit / Fedeltà |
| Meta-data Miżjuda | Siltiet rilevanti misjuba, iżda ma tistax tittraċċa s-sors jew iż-żmien, jew teħtieġ filtrazzjoni skont id-dominju. | Żid metadata ma' kull chunk: source (isem tal-fajl/URL), timestamp, page_num, doc_type. Uża filtri waqt l-irkupru (eż. doc_type == 'legal'). |
Preċiżjoni tal-filtrazzjoni |
| Għażla tal-Mudell ta' Embedding | Embedding ġenerali jaħdem ħażin f'oqsma speċjalizzati (mediċina, kodiċi, liġi). | Uża mudelli rfinati għad-dominju (BGE‑large‑zh, GTE‑Qwen2‑7B‑instruct); jew irfina l-mudell ta' embedding tiegħek (b' triplet loss). | MRR@10 fl-irkupru +10~20% |
II. Ottimizzazzjoni tal-ġenb tal-irkupru (agħmel il-"tfittxija fil-ktieb" aktar preċiża)
L-irkupru jiddetermina l-kwalità tal-"materjal ta' referenza" mogħti lill-LLM.
| Punt ta' Ottimizzazzjoni | Problema | Metodu Speċifiku | Effett |
|---|---|---|---|
| Irkupru Mħallat | Irkupru vettorjali ma jaqbilx termini preċiżi (eż., mudell ta' prodott ABC-123); irkupru b'kliem ewlieni ma jifhimx sinonimi. |
Uża fl-istess ħin rkupru vettorjali (semantiku) u BM25 (kliem ewlieni), permezz ta' piż (eż., 0.7vettor + 0.3BM25) jew fużjoni b'rerank. | Rata ta' rkupru +10~25% |
| Rerank | L-ewwel ftit riżultati mir-ritorn tal-irkupru vettorjali mhumiex neċessarjament l-aktar rilevanti, l-10 huwa l-aħjar. | Uża mudell cross‑encoder (eż., BGE‑reranker-v2, Cohere Rerank) biex terġa' tikklassifika l-kandidati (eż., l-ewwel 20) u ħu top‑K. |
Żieda sinifikanti fir-rata ta' hit (speċjalment top‑1) |
| Kitba mill-ġdid tal-Mistoqsija | Mistoqsija vaga jew ambigwa f'konversazzjoni b'ħafna dawriet (eż., "X'inhu l-prezz tiegħu?"). | Uża LLM biex tikteb mill-ġdid il-mistoqsija oriġinali f'forma aktar adattata għall-irkupru (eż., "X'inhu l-prezz tal-iPhone 15?"); jew uża l-istorja tal-konversazzjoni biex tikkompleta. | Rata ta' rkupru +5~15% |
| HyDE | Mistoqsija tal-utent qasira wisq jew astratta (eż., "Spjega l-fotosintesi"), irkupru dirett ħażin. | L-ewwel ġiegħel lill-LLM jiġġenera tweġiba ipotetika, uża din it-tweġiba biex tirkupra dokumenti. | Adattat għal dominju miftuħ, iżda mhux għal mistoqsijiet preċiżi fattwali |
| Aġġustament tal-Quantità ta' Rkupru Top‑K | K żgħir jista' jitlef informazzjoni kritika; K kbir iżid il-konsum ta' token u l-istorbju. | Esperimenta b'K=3/5/10, osserva l-bilanċ bejn ir-rata ta' rkupru u l-fedeltà tat-tweġiba. | Trade‑off bejn effiċjenza u effett |
III. Ottimizzazzjoni tal-ġenb tal-ġenerazzjoni (ġiegħel lill-LLM juża sew il-materjal ta' referenza)
Anki jekk l-irkupru huwa preċiż, jekk il-prompt mhux tajjeb jew il-mudell mhuwiex b'saħħtu, ma jgħin xejn.
| Punt ta' Ottimizzazzjoni | Problema | Metodu Speċifiku | Effett |
|---|---|---|---|
| Inġinerija tal-Prompt | LLM jinjora l-kontenut irkuprat, jew jivvinta affarijiet. | Struzzjoni ċara: "Ibbaża r-risposta biss fuq il-materjal ta' referenza pprovdut jekk il-materjal ma jkunx biżżejjed jew rilevanti, wieġeb 'M'hemmx informazzjoni biżżejjed'." Żid eżempji b'ftit shots li juru kif tiċċita s-sorsi. | Fedeltà +20~40% |
| Kompressjoni tal-Kuntest | Il-kontenut irkuprat huwa twil wisq (jaqbeż it-tieqa tal-kuntest tal-mudell), jew ħafna minnu huwa storbju. | Uża LLMLingua jew Kuntest Selettiv biex tikkompressa, iżżomm l-aktar sentenzi rilevanti qabel ma tibgħathom lill-LLM. |
Tnaqqis tar-riskju li tintilef informazzjoni |
| Aġġornament tal-Mudell LLM | Mudell żgħir (7B) ma jistax iwettaq raġunament kumpless, jew ma jiftakarx kuntest twil. | Ibdel b'mudell aktar b'saħħtu (GPT‑4o, Claude 3.5 Sonnet, Qwen2.5‑72B). | Titjib kbir fl-eżattezza tar-raġunament |
| Streaming u Ċitazzjonijiet | L-utent ma jistax jivverifika l-kredibilità tat-tweġiba. | Waqt il-ġenerazzjoni, ġiegħel lill-LLM joħroġ [citazzjoni:1], li jikkorrispondi għan-numru tad-dokument irkuprat. In-naħa tas-server żid il-link oriġinali. |
Fiduċja tal-utent + it-tfixkil |
| Kalibrazzjoni tar-Rifjut | Il-mudell jivvinta meta ma jkunx għandu jwieġeb, jew jgħid li ma jafx meta għandu jwieġeb. | Issettja limitu ta' similarità: jekk il-chunk top‑1 irkuprat ikollu similarità tal-kosinu mal-mistoqsija inqas minn 0.7, għid lill-LLM "Il-materjal mhuwiex rilevanti". | Tnaqqis fir-rata ta' alluċinazzjoni |
IV. Ġenb tal-Evalwazzjoni u l-Iterazzjoni (tkun taf fejn taġġusta)
Mingħajr kejl, ma tistax tottimizza.
| Punt ta' Ottimizzazzjoni | Metodu | Indikatur |
|---|---|---|
| Stabbiliment ta' Sett ta' Evalwazzjoni | Ipprepara 100~300 mistoqsijiet reali tal-utent + tweġibiet standard + ID tad-dokumenti korretti għall-irkupru. | Ikopri diffikultajiet differenti, intenzjonijiet differenti. |
| Evalwazzjoni Awtomatika | Uża RAGAS (Faithfulness, Answer Relevance, Context Recall) jew TruLens. | Tliet indikaturi ewlenin: fedeltà, rilevanza tat-tweġiba, rata ta' rkupru tal-kuntest. |
| Evalwazzjoni Manwali | Kull ġimgħa, ittestja 20 każ ħażin, analizza t-tip ta' żball (falliment fl-irkupru / żball fil-ġenerazzjoni / nuqqas fil-bażi tal-għarfien). | Prijoritizzazzjoni għat-titjib. |
| Test A/B | Fl-ambjent ta' produzzjoni, ittestja strateġiji differenti ta' rkupru (eż., BM25 vs rkupru mħallat) f'bins separati. | Indikaturi onlajn: sodisfazzjon tal-utent, rata ta' nuqqas ta' tweġiba. |
V. "Esperjenza Prattika" li tista' ssemmi f'intervista (punti bonus)
"Fil-proġett RAG li kont responsabbli għalih, fil-bidu r-rata ta' hit bażi kienet biss 67%. Għamilt tliet affarijiet:
1. Ibdil it-tqassim minn fiss ta' 1024 għal qsim semantiku dinamiku (skont titli + paragrafi), ir-rata ta' hit telgħet għal 74%;
2. Żied taħlita ta' rkupru (vettorjali + BM25) u mudell żgħir ta' rerank, ir-rata ta' hit telgħet għal 83%;
3. Ottimizzazzjoni tal-prompt u obbligu ta' '[Informazzjoni rilevanti mhix misjuba]', ir-rata ta' alluċinazzjoni niżlet minn 22% għal inqas minn 5%.Barra minn hekk, bnejna pipeline kontinwu ta' evalwazzjoni, qabel kull tibdil imexxu 200 mistoqsija b'punteġġ RAGAS biex niżguraw li m'hemmx tnaqqis fil-prestazzjoni."
Sommarju Finali: Mappa Kompluta ta' Ottimizzazzjoni RAG
Saff tad-dejta ─→ Tindif tad-dokumenti, ottimizzazzjoni tal-chunk, titjib tal-metadata, embedding tad-dominju
Saff tal-irkupru ─→ Irkupru mħallat, rerank, kitba mill-ġdid tal-mistoqsija, HyDE, aġġustament ta' Top-K
Saff tal-ġenerazzjoni ─→ Tisħiħ tal-prompt, rekwiżiti ta' struzzjoni, kompressjoni, ċitazzjonijiet, limitu ta' rifjut
Saff tal-evalwazzjoni ─→ Sett ta' evalwazzjoni, RAGAS, analiżi manwali, esperimenti A/B
评论
暂无已展示的评论。
发表评论(匿名)