Serye sa Interview sa AI 11: Giunsa pag-optimize ang RAG?
Ang pag-optimize sa RAG dili lang basta pag-adjust sa usa ka bahin, kondili usa ka bug-os nga proseso sa pagpaayo. Sa ubos akong ihatag ang sistematikong estratehiya sa pagpaayo gikan sa upat ka dimensyon: data indexing side, retrieval side, generation side, ug evaluation side, ug apil ang mga praktikal nga kasinatian nga mahimong hisgotan sa interview.
Una: Pag-optimize sa Data Indexing Side (Pagpaayo sa kalidad sa "knowledge base")
Kini ang kasagarang wala matagad apan labing epektibo.
| Point sa Pag-optimize | Problema nga Makita | Specific nga Buhaton | Metric sa Epekto |
|---|---|---|---|
| Document Parsing | Ang mga table, flowchart sa PDF wala masabti, o mga letra nagkasagol, sayop ang han-ay. | Gamit ug mas maayong parsing library (sama sa unstructured, layout preservation mode sa pypdf); para sa tables, kuhaa gamit ang pandas ug i-convert sa Markdown. |
Pagtaas sa recall +5~15% |
| Text Chunk Size | Gamay ra kaayo ang chunk (e.g., mawala ang referent sa "siya" sa "siya miingon nga ang kita niining tuiga"); dako ra kaayo ang chunk nga daghang noise sa retrieval. | Eksperimento sa lain-laing chunk size (256/512/768 tokens), overlap ibutang sa 10~20%; para sa taas nga dokumento, gamita ang semantic boundaries (paragraph/heading) imbes fixed length. | Hit rate / Faithfulness |
| Metadata Attachment | Naka-retrieve sa relevant nga paragraph, pero dili masubay ang source o panahon, o kinahanglan nga i-filter pinaagi sa domain. | Idugang ang metadata sa matag chunk: source (file name/URL), timestamp, page_num, doc_type. Sa pag-retrieve, gamita ang filter (e.g., doc_type == 'legal'). |
Precision sa filter |
| Embedding Model Selection | Ang generic embedding dili maayo sa specialized domains (medical, code, legal). | Gamita ang fine-tuned model para sa domain (BGE‑large‑zh, GTE‑Qwen2‑7B‑instruct); o fine-tune ang imong kaugalingong embedding model (gamit ang triplet loss). | Pagtaas sa MRR@10 +10~20% |
Ikaduha: Pag-optimize sa Retrieval Side (Pagpaayo sa "pagsusi'g libro")
Ang retrieval nagdeterminar sa kalidad sa "reference materials" nga ihatag sa LLM.
| Point sa Pag-optimize | Problema nga Makita | Specific nga Buhaton | Epekto |
|---|---|---|---|
| Hybrid Retrieval | Ang vector retrieval dili makamatch sa eksaktong termino (e.g., product model ABC-123), ang keyword retrieval dili makasabot sa synonyms. |
Gamita ang vector retrieval (semantic) ug BM25 (keyword) dungan, pinaagi sa weighted (e.g., 0.7vector + 0.3BM25) o rerank fusion. | Pagtaas sa recall +10~25% |
| Reranking | Ang unang pipila ka resulta sa vector retrieval dili kanunay pinakarelevant, ang ika-10 ang pinakamaayo. | Gamita ang cross‑encoder model (e.g., BGE‑reranker-v2, Cohere Rerank) para mag-re-score sa candidate set (e.g., top 20), unya kuhaa ang top‑K. |
Dako nga pagtaas sa hit rate (ilabi na sa top‑1) |
| Query Rewriting | Ang user question dili klaro o dili kompleto ang referent sa multi-turn dialogue ("Unsa ang presyo niini?"). | Gamita ang LLM para i-rewrite ang original question ngadto sa mas angay nga porma para sa retrieval (e.g., "Unsa ang presyo sa iPhone 15?"); o gamita ang dialogue history para kompletohon. | Pagtaas sa recall +5~15% |
| HyDE | Ang user question mubo ra o abstract (e.g., "Isulti ang bahin sa photosynthesis"), diretso nga retrieval dili maayo. | Una, ipa-generate sa LLM ang hypothetical answer, unya gamita kini nga answer para mag-retrieve sa mga dokumento. | Maayo para sa open-domain, pero dili para sa fact-based precise QA |
| Retrieval Top‑K Adjustment | Gamay ra ang K nga mawala ang importanteng info; dako ra ang K nga modaghan ang token consumption ug noise. | Eksperimento sa K=3/5/10, obserbahan ang balance sa recall ug answer faithfulness. | Trade‑off tali sa efficiency ug effectiveness |
Ikatulo: Pag-optimize sa Generation Side (Pagpaayo nga ang LLM mogamit ug maayo sa references)
Bisan unsa ka maayo ang retrieval, kung dili maayo ang prompt o ang model, wala ray kapuslanan.
| Point sa Pag-optimize | Problema nga Makita | Specific nga Buhaton | Epekto |
|---|---|---|---|
| Prompt Engineering | Ang LLM wala magtagad sa retrieved content, o naghimo hinuon og butang. | Ibutang ang tin-aw nga instruksiyon: "Base lang sa mosunod nga references nga gihatag ang tubag. Kung kulang o dili relevant ang info, tubaga og 'walay igong impormasyon'." Idugang ang few‑shot examples nga nagpakita unsaon pag-cite sa sources. | Pagtaas sa faithfulness +20~40% |
| Context Compression | Ang retrieved content taas ra (lapaw sa context window sa model), o kadaghanan noise. | Gamita ang LLMLingua o Selective Context para i-compress, tipigi lang ang pinakarelevant nga sentences una ihatag sa LLM. |
Pagkunhod sa risk nga mawala ang info |
| LLM Model Upgrade | Gamay nga model (7B) dili makabuhat og complex reasoning, o dili makahinumdom sa taas nga context. | Gamita ang mas kusgan nga model (GPT‑4o, Claude 3.5 Sonnet, Qwen2.5‑72B). | Dako nga pagtaas sa accuracy sa reasoning |
| Streaming ug Citations | Dili ma-validate sa user ang credibility sa answer. | Sa generation, ipa-output sa LLM ang [citation:1] nga motumbok sa document ID. Ihatag ang link sa original text sa backend. |
Pagsalig sa user + debuggability |
| Refusal Calibration | Nag-imbento ang model kung di dapat, o wala motubag kung di dapat. | Ibutang ang similarity threshold: kung ang cosine similarity sa top‑1 chunk ubos sa 0.7, i-prompt ang LLM nga "dili relevant ang info". | Pagkunhod sa hallucination rate |
Ikaupat: Evaluation ug Iteration Side (Pagkahibalo asa padulong ang adjustments)
Kung walay sukod, walay optimization.
| Point sa Pag-optimize | Buhaton | Metric |
|---|---|---|
| Paghimo og Evaluation Set | Pag-andam og 100~300 ka tinuod nga user questions + standard answers + hustong retrieval document IDs. | Cover sa lain-laing kalisod ug intention. |
| Automated Evaluation | Gamit ang RAGAS (Faithfulness, Answer Relevance, Context Recall) o TruLens. | Tulo ka core metrics: faithfulness, answer relevance, context recall. |
| Human Evaluation | Matag semana, random test 20 ka bad cases, analisaha ang tipo sa sayop (retrieval failure / generation error / kulang ang knowledge base). | Prioritize improvements. |
| A/B Testing | Sa production environment, i-bucket test ang lain-laing retrieval strategies (e.g., BM25 vs hybrid retrieval). | Online metrics: user satisfaction, no-answer rate. |
Ikalima: "Praktikal nga Kasinatian" nga Maka-istorya sa Interview (Points para sa bonus)
"Sa akong gipangulohan nga RAG project, ang baseline hit rate 67% lang. Naghimo ko og tulo ka butang:
1. Gibag-o ang chunking gikan sa fixed 1024 ngadto sa dynamic semantic chunking (sumala sa heading + paragraph), mitubo ang hit rate ngadto sa 74%;
2. Gidugang ang hybrid retrieval (vector + BM25) ug gamay nga rerank model, mitubo ang hit rate ngadto sa 83%;
3. Gi-optimize ang prompt ug gipugos ang[wala makitang relevant nga impormasyon], ang hallucination rate mikunhod gikan 22% ngadto sa ubos sa 5%.Dugang pa, nagtukod mi og continuous evaluation pipeline, matag usabay nagdagan og 200 ka questions nga RAGAS scores, aron masigurado nga walay degradation."
Katapusang Summary: Kompletong RAG Optimization Roadmap
Data Layer ─→ Document cleaning, chunk optimization, metadata enhancement, domain embedding
Retrieval Layer ─→ Hybrid retrieval, rerank, query rewriting, HyDE, Top-K tuning
Generation Layer ─→ Prompt strengthening, instruction requirements, compression, citations, refusal threshold
Evaluation Layer ─→ Evaluation set, RAGAS, human analysis, A/B experiments
评论
暂无已展示的评论。
发表评论(匿名)