← 返回列表

Mistoqsijiet ta' Intervista AI 11: Kif Tottimizza RAG?

L-ottimizzazzjoni ta' RAG mhijiex aġġustament ta' stadju wieħed, iżda proċess ta' ottimizzazzjoni tal-katina sħiħa. Hawn taħt, mill-erba' dimensjonijiet ta' ottimizzazzjoni tal-indiċjar tad-dejta, ottimizzazzjoni tal-irkupru, ottimizzazzjoni tal-ġenerazzjoni, u ottimizzazzjoni tal-evalwazzjoni, nagħti strateġiji sistemiċi ta' ottimizzazzjoni, flimkien ma' esperjenzi prattiċi li jistgħu jissemmew f'intervista.


I. Ottimizzazzjoni tal-ġenb tal-indiċjar tad-dejta (it-titjib tal-kwalità tal-"bażi tal-għarfien")

Dan huwa l-aktar post li jiġi injorat iżda li jagħti l-aktar riżultati malajr.

Punt ta' Ottimizzazzjoni Problema Metodu Speċifiku Indikatur tal-Effett
Tqassir ta' Dokumenti Tabelli u dijagrammi tal-fluss fil-PDF jiġu injorati, jew test ikun imħawwad, ordni ħażina. Uża libreriji ta' parsing aħjar (bħal unstructured, modalità ta' preservazzjoni tal-format ta' pypdf); għat-tabelli, estrahom b'pandas u ikkonvertihom għal Markdown. Rata ta' rkupru +5~15%
Daqs ta' Chunk tat-Test Chunk żgħir wisq jitlef il-kuntest (eż., il-pronom "hu" f'"it-tkabbir tad-dħul tiegħu din is-sena"); chunk kbir wisq iżid l-istorbju fl-irkupru. Esperimenta b'daqsijiet differenti ta' chunk (256/512/768 token), overlap ta' 10~20%; għal dokumenti twal, aqsam skont il-konfini semantiċi (paragrafi/titli) aktar minn tul fiss. Rata ta' hit / Fedeltà
Meta-data Miżjuda Siltiet rilevanti misjuba, iżda ma tistax tittraċċa s-sors jew iż-żmien, jew teħtieġ filtrazzjoni skont id-dominju. Żid metadata ma' kull chunk: source (isem tal-fajl/URL), timestamp, page_num, doc_type. Uża filtri waqt l-irkupru (eż. doc_type == 'legal'). Preċiżjoni tal-filtrazzjoni
Għażla tal-Mudell ta' Embedding Embedding ġenerali jaħdem ħażin f'oqsma speċjalizzati (mediċina, kodiċi, liġi). Uża mudelli rfinati għad-dominju (BGE‑large‑zh, GTE‑Qwen2‑7B‑instruct); jew irfina l-mudell ta' embedding tiegħek (b' triplet loss). MRR@10 fl-irkupru +10~20%

II. Ottimizzazzjoni tal-ġenb tal-irkupru (agħmel il-"tfittxija fil-ktieb" aktar preċiża)

L-irkupru jiddetermina l-kwalità tal-"materjal ta' referenza" mogħti lill-LLM.

Punt ta' Ottimizzazzjoni Problema Metodu Speċifiku Effett
Irkupru Mħallat Irkupru vettorjali ma jaqbilx termini preċiżi (eż., mudell ta' prodott ABC-123); irkupru b'kliem ewlieni ma jifhimx sinonimi. Uża fl-istess ħin rkupru vettorjali (semantiku) u BM25 (kliem ewlieni), permezz ta' piż (eż., 0.7vettor + 0.3BM25) jew fużjoni b'rerank. Rata ta' rkupru +10~25%
Rerank L-ewwel ftit riżultati mir-ritorn tal-irkupru vettorjali mhumiex neċessarjament l-aktar rilevanti, l-10 huwa l-aħjar. Uża mudell cross‑encoder (eż., BGE‑reranker-v2, Cohere Rerank) biex terġa' tikklassifika l-kandidati (eż., l-ewwel 20) u ħu top‑K. Żieda sinifikanti fir-rata ta' hit (speċjalment top‑1)
Kitba mill-ġdid tal-Mistoqsija Mistoqsija vaga jew ambigwa f'konversazzjoni b'ħafna dawriet (eż., "X'inhu l-prezz tiegħu?"). Uża LLM biex tikteb mill-ġdid il-mistoqsija oriġinali f'forma aktar adattata għall-irkupru (eż., "X'inhu l-prezz tal-iPhone 15?"); jew uża l-istorja tal-konversazzjoni biex tikkompleta. Rata ta' rkupru +5~15%
HyDE Mistoqsija tal-utent qasira wisq jew astratta (eż., "Spjega l-fotosintesi"), irkupru dirett ħażin. L-ewwel ġiegħel lill-LLM jiġġenera tweġiba ipotetika, uża din it-tweġiba biex tirkupra dokumenti. Adattat għal dominju miftuħ, iżda mhux għal mistoqsijiet preċiżi fattwali
Aġġustament tal-Quantità ta' Rkupru Top‑K K żgħir jista' jitlef informazzjoni kritika; K kbir iżid il-konsum ta' token u l-istorbju. Esperimenta b'K=3/5/10, osserva l-bilanċ bejn ir-rata ta' rkupru u l-fedeltà tat-tweġiba. Trade‑off bejn effiċjenza u effett

III. Ottimizzazzjoni tal-ġenb tal-ġenerazzjoni (ġiegħel lill-LLM juża sew il-materjal ta' referenza)

Anki jekk l-irkupru huwa preċiż, jekk il-prompt mhux tajjeb jew il-mudell mhuwiex b'saħħtu, ma jgħin xejn.

Punt ta' Ottimizzazzjoni Problema Metodu Speċifiku Effett
Inġinerija tal-Prompt LLM jinjora l-kontenut irkuprat, jew jivvinta affarijiet. Struzzjoni ċara: "Ibbaża r-risposta biss fuq il-materjal ta' referenza pprovdut jekk il-materjal ma jkunx biżżejjed jew rilevanti, wieġeb 'M'hemmx informazzjoni biżżejjed'." Żid eżempji b'ftit shots li juru kif tiċċita s-sorsi. Fedeltà +20~40%
Kompressjoni tal-Kuntest Il-kontenut irkuprat huwa twil wisq (jaqbeż it-tieqa tal-kuntest tal-mudell), jew ħafna minnu huwa storbju. Uża LLMLingua jew Kuntest Selettiv biex tikkompressa, iżżomm l-aktar sentenzi rilevanti qabel ma tibgħathom lill-LLM. Tnaqqis tar-riskju li tintilef informazzjoni
Aġġornament tal-Mudell LLM Mudell żgħir (7B) ma jistax iwettaq raġunament kumpless, jew ma jiftakarx kuntest twil. Ibdel b'mudell aktar b'saħħtu (GPT‑4o, Claude 3.5 Sonnet, Qwen2.5‑72B). Titjib kbir fl-eżattezza tar-raġunament
Streaming u Ċitazzjonijiet L-utent ma jistax jivverifika l-kredibilità tat-tweġiba. Waqt il-ġenerazzjoni, ġiegħel lill-LLM joħroġ [citazzjoni:1], li jikkorrispondi għan-numru tad-dokument irkuprat. In-naħa tas-server żid il-link oriġinali. Fiduċja tal-utent + it-tfixkil
Kalibrazzjoni tar-Rifjut Il-mudell jivvinta meta ma jkunx għandu jwieġeb, jew jgħid li ma jafx meta għandu jwieġeb. Issettja limitu ta' similarità: jekk il-chunk top‑1 irkuprat ikollu similarità tal-kosinu mal-mistoqsija inqas minn 0.7, għid lill-LLM "Il-materjal mhuwiex rilevanti". Tnaqqis fir-rata ta' alluċinazzjoni

IV. Ġenb tal-Evalwazzjoni u l-Iterazzjoni (tkun taf fejn taġġusta)

Mingħajr kejl, ma tistax tottimizza.

Punt ta' Ottimizzazzjoni Metodu Indikatur
Stabbiliment ta' Sett ta' Evalwazzjoni Ipprepara 100~300 mistoqsijiet reali tal-utent + tweġibiet standard + ID tad-dokumenti korretti għall-irkupru. Ikopri diffikultajiet differenti, intenzjonijiet differenti.
Evalwazzjoni Awtomatika Uża RAGAS (Faithfulness, Answer Relevance, Context Recall) jew TruLens. Tliet indikaturi ewlenin: fedeltà, rilevanza tat-tweġiba, rata ta' rkupru tal-kuntest.
Evalwazzjoni Manwali Kull ġimgħa, ittestja 20 każ ħażin, analizza t-tip ta' żball (falliment fl-irkupru / żball fil-ġenerazzjoni / nuqqas fil-bażi tal-għarfien). Prijoritizzazzjoni għat-titjib.
Test A/B Fl-ambjent ta' produzzjoni, ittestja strateġiji differenti ta' rkupru (eż., BM25 vs rkupru mħallat) f'bins separati. Indikaturi onlajn: sodisfazzjon tal-utent, rata ta' nuqqas ta' tweġiba.

V. "Esperjenza Prattika" li tista' ssemmi f'intervista (punti bonus)

"Fil-proġett RAG li kont responsabbli għalih, fil-bidu r-rata ta' hit bażi kienet biss 67%. Għamilt tliet affarijiet:
1. Ibdil it-tqassim minn fiss ta' 1024 għal qsim semantiku dinamiku (skont titli + paragrafi), ir-rata ta' hit telgħet għal 74%;
2. Żied taħlita ta' rkupru (vettorjali + BM25) u mudell żgħir ta' rerank, ir-rata ta' hit telgħet għal 83%;
3. Ottimizzazzjoni tal-prompt u obbligu ta' '[Informazzjoni rilevanti mhix misjuba]', ir-rata ta' alluċinazzjoni niżlet minn 22% għal inqas minn 5%.

Barra minn hekk, bnejna pipeline kontinwu ta' evalwazzjoni, qabel kull tibdil imexxu 200 mistoqsija b'punteġġ RAGAS biex niżguraw li m'hemmx tnaqqis fil-prestazzjoni."


Sommarju Finali: Mappa Kompluta ta' Ottimizzazzjoni RAG

Saff tad-dejta ─→ Tindif tad-dokumenti, ottimizzazzjoni tal-chunk, titjib tal-metadata, embedding tad-dominju
Saff tal-irkupru ─→ Irkupru mħallat, rerank, kitba mill-ġdid tal-mistoqsija, HyDE, aġġustament ta' Top-K
Saff tal-ġenerazzjoni ─→ Tisħiħ tal-prompt, rekwiżiti ta' struzzjoni, kompressjoni, ċitazzjonijiet, limitu ta' rifjut
Saff tal-evalwazzjoni ─→ Sett ta' evalwazzjoni, RAGAS, analiżi manwali, esperimenti A/B

评论

暂无已展示的评论。

发表评论(匿名)