← 返回列表

Serye sa Interview sa AI 11: Giunsa pag-optimize ang RAG?

Ang pag-optimize sa RAG dili lang basta pag-adjust sa usa ka bahin, kondili usa ka bug-os nga proseso sa pagpaayo. Sa ubos akong ihatag ang sistematikong estratehiya sa pagpaayo gikan sa upat ka dimensyon: data indexing side, retrieval side, generation side, ug evaluation side, ug apil ang mga praktikal nga kasinatian nga mahimong hisgotan sa interview.


Una: Pag-optimize sa Data Indexing Side (Pagpaayo sa kalidad sa "knowledge base")

Kini ang kasagarang wala matagad apan labing epektibo.

Point sa Pag-optimize Problema nga Makita Specific nga Buhaton Metric sa Epekto
Document Parsing Ang mga table, flowchart sa PDF wala masabti, o mga letra nagkasagol, sayop ang han-ay. Gamit ug mas maayong parsing library (sama sa unstructured, layout preservation mode sa pypdf); para sa tables, kuhaa gamit ang pandas ug i-convert sa Markdown. Pagtaas sa recall +5~15%
Text Chunk Size Gamay ra kaayo ang chunk (e.g., mawala ang referent sa "siya" sa "siya miingon nga ang kita niining tuiga"); dako ra kaayo ang chunk nga daghang noise sa retrieval. Eksperimento sa lain-laing chunk size (256/512/768 tokens), overlap ibutang sa 10~20%; para sa taas nga dokumento, gamita ang semantic boundaries (paragraph/heading) imbes fixed length. Hit rate / Faithfulness
Metadata Attachment Naka-retrieve sa relevant nga paragraph, pero dili masubay ang source o panahon, o kinahanglan nga i-filter pinaagi sa domain. Idugang ang metadata sa matag chunk: source (file name/URL), timestamp, page_num, doc_type. Sa pag-retrieve, gamita ang filter (e.g., doc_type == 'legal'). Precision sa filter
Embedding Model Selection Ang generic embedding dili maayo sa specialized domains (medical, code, legal). Gamita ang fine-tuned model para sa domain (BGE‑large‑zh, GTE‑Qwen2‑7B‑instruct); o fine-tune ang imong kaugalingong embedding model (gamit ang triplet loss). Pagtaas sa MRR@10 +10~20%

Ikaduha: Pag-optimize sa Retrieval Side (Pagpaayo sa "pagsusi'g libro")

Ang retrieval nagdeterminar sa kalidad sa "reference materials" nga ihatag sa LLM.

Point sa Pag-optimize Problema nga Makita Specific nga Buhaton Epekto
Hybrid Retrieval Ang vector retrieval dili makamatch sa eksaktong termino (e.g., product model ABC-123), ang keyword retrieval dili makasabot sa synonyms. Gamita ang vector retrieval (semantic) ug BM25 (keyword) dungan, pinaagi sa weighted (e.g., 0.7vector + 0.3BM25) o rerank fusion. Pagtaas sa recall +10~25%
Reranking Ang unang pipila ka resulta sa vector retrieval dili kanunay pinakarelevant, ang ika-10 ang pinakamaayo. Gamita ang cross‑encoder model (e.g., BGE‑reranker-v2, Cohere Rerank) para mag-re-score sa candidate set (e.g., top 20), unya kuhaa ang top‑K. Dako nga pagtaas sa hit rate (ilabi na sa top‑1)
Query Rewriting Ang user question dili klaro o dili kompleto ang referent sa multi-turn dialogue ("Unsa ang presyo niini?"). Gamita ang LLM para i-rewrite ang original question ngadto sa mas angay nga porma para sa retrieval (e.g., "Unsa ang presyo sa iPhone 15?"); o gamita ang dialogue history para kompletohon. Pagtaas sa recall +5~15%
HyDE Ang user question mubo ra o abstract (e.g., "Isulti ang bahin sa photosynthesis"), diretso nga retrieval dili maayo. Una, ipa-generate sa LLM ang hypothetical answer, unya gamita kini nga answer para mag-retrieve sa mga dokumento. Maayo para sa open-domain, pero dili para sa fact-based precise QA
Retrieval Top‑K Adjustment Gamay ra ang K nga mawala ang importanteng info; dako ra ang K nga modaghan ang token consumption ug noise. Eksperimento sa K=3/5/10, obserbahan ang balance sa recall ug answer faithfulness. Trade‑off tali sa efficiency ug effectiveness

Ikatulo: Pag-optimize sa Generation Side (Pagpaayo nga ang LLM mogamit ug maayo sa references)

Bisan unsa ka maayo ang retrieval, kung dili maayo ang prompt o ang model, wala ray kapuslanan.

Point sa Pag-optimize Problema nga Makita Specific nga Buhaton Epekto
Prompt Engineering Ang LLM wala magtagad sa retrieved content, o naghimo hinuon og butang. Ibutang ang tin-aw nga instruksiyon: "Base lang sa mosunod nga references nga gihatag ang tubag. Kung kulang o dili relevant ang info, tubaga og 'walay igong impormasyon'." Idugang ang few‑shot examples nga nagpakita unsaon pag-cite sa sources. Pagtaas sa faithfulness +20~40%
Context Compression Ang retrieved content taas ra (lapaw sa context window sa model), o kadaghanan noise. Gamita ang LLMLingua o Selective Context para i-compress, tipigi lang ang pinakarelevant nga sentences una ihatag sa LLM. Pagkunhod sa risk nga mawala ang info
LLM Model Upgrade Gamay nga model (7B) dili makabuhat og complex reasoning, o dili makahinumdom sa taas nga context. Gamita ang mas kusgan nga model (GPT‑4o, Claude 3.5 Sonnet, Qwen2.5‑72B). Dako nga pagtaas sa accuracy sa reasoning
Streaming ug Citations Dili ma-validate sa user ang credibility sa answer. Sa generation, ipa-output sa LLM ang [citation:1] nga motumbok sa document ID. Ihatag ang link sa original text sa backend. Pagsalig sa user + debuggability
Refusal Calibration Nag-imbento ang model kung di dapat, o wala motubag kung di dapat. Ibutang ang similarity threshold: kung ang cosine similarity sa top‑1 chunk ubos sa 0.7, i-prompt ang LLM nga "dili relevant ang info". Pagkunhod sa hallucination rate

Ikaupat: Evaluation ug Iteration Side (Pagkahibalo asa padulong ang adjustments)

Kung walay sukod, walay optimization.

Point sa Pag-optimize Buhaton Metric
Paghimo og Evaluation Set Pag-andam og 100~300 ka tinuod nga user questions + standard answers + hustong retrieval document IDs. Cover sa lain-laing kalisod ug intention.
Automated Evaluation Gamit ang RAGAS (Faithfulness, Answer Relevance, Context Recall) o TruLens. Tulo ka core metrics: faithfulness, answer relevance, context recall.
Human Evaluation Matag semana, random test 20 ka bad cases, analisaha ang tipo sa sayop (retrieval failure / generation error / kulang ang knowledge base). Prioritize improvements.
A/B Testing Sa production environment, i-bucket test ang lain-laing retrieval strategies (e.g., BM25 vs hybrid retrieval). Online metrics: user satisfaction, no-answer rate.

Ikalima: "Praktikal nga Kasinatian" nga Maka-istorya sa Interview (Points para sa bonus)

"Sa akong gipangulohan nga RAG project, ang baseline hit rate 67% lang. Naghimo ko og tulo ka butang:
1. Gibag-o ang chunking gikan sa fixed 1024 ngadto sa dynamic semantic chunking (sumala sa heading + paragraph), mitubo ang hit rate ngadto sa 74%;
2. Gidugang ang hybrid retrieval (vector + BM25) ug gamay nga rerank model, mitubo ang hit rate ngadto sa 83%;
3. Gi-optimize ang prompt ug gipugos ang [wala makitang relevant nga impormasyon], ang hallucination rate mikunhod gikan 22% ngadto sa ubos sa 5%.

Dugang pa, nagtukod mi og continuous evaluation pipeline, matag usabay nagdagan og 200 ka questions nga RAGAS scores, aron masigurado nga walay degradation."


Katapusang Summary: Kompletong RAG Optimization Roadmap

Data Layer ─→ Document cleaning, chunk optimization, metadata enhancement, domain embedding
Retrieval Layer ─→ Hybrid retrieval, rerank, query rewriting, HyDE, Top-K tuning
Generation Layer ─→ Prompt strengthening, instruction requirements, compression, citations, refusal threshold
Evaluation Layer ─→ Evaluation set, RAGAS, human analysis, A/B experiments

评论

暂无已展示的评论。

发表评论(匿名)