Serye sa Interview sa AI 11: Giunsa pag-optimize ang RAG?

Ang pag-optimize sa RAG dili lang basta pag-adjust sa usa ka bahin, kondili usa ka bug-os nga proseso sa pagpaayo. Sa ubos akong ihatag ang sistematikong estratehiya sa pagpaayo gikan sa upat ka dimensyon: data indexing side, retrieval side, generation side, ug evaluation side, ug apil ang mga praktikal nga kasinatian nga mahimong hisgotan sa interview.

Una: Pag-optimize sa Data Indexing Side (Pagpaayo sa kalidad sa "knowledge base")

Kini ang kasagarang wala matagad apan labing epektibo.

Point sa Pag-optimize	Problema nga Makita	Specific nga Buhaton	Metric sa Epekto
Document Parsing	Ang mga table, flowchart sa PDF wala masabti, o mga letra nagkasagol, sayop ang han-ay.	Gamit ug mas maayong parsing library (sama sa `unstructured`, layout preservation mode sa `pypdf`); para sa tables, kuhaa gamit ang `pandas` ug i-convert sa Markdown.	Pagtaas sa recall +5~15%
Text Chunk Size	Gamay ra kaayo ang chunk (e.g., mawala ang referent sa "siya" sa "siya miingon nga ang kita niining tuiga"); dako ra kaayo ang chunk nga daghang noise sa retrieval.	Eksperimento sa lain-laing chunk size (256/512/768 tokens), overlap ibutang sa 10~20%; para sa taas nga dokumento, gamita ang semantic boundaries (paragraph/heading) imbes fixed length.	Hit rate / Faithfulness
Metadata Attachment	Naka-retrieve sa relevant nga paragraph, pero dili masubay ang source o panahon, o kinahanglan nga i-filter pinaagi sa domain.	Idugang ang metadata sa matag chunk: `source` (file name/URL), `timestamp`, `page_num`, `doc_type`. Sa pag-retrieve, gamita ang filter (e.g., `doc_type == 'legal'`).	Precision sa filter
Embedding Model Selection	Ang generic embedding dili maayo sa specialized domains (medical, code, legal).	Gamita ang fine-tuned model para sa domain (BGE‑large‑zh, GTE‑Qwen2‑7B‑instruct); o fine-tune ang imong kaugalingong embedding model (gamit ang triplet loss).	Pagtaas sa MRR@10 +10~20%

Ikaduha: Pag-optimize sa Retrieval Side (Pagpaayo sa "pagsusi'g libro")

Ang retrieval nagdeterminar sa kalidad sa "reference materials" nga ihatag sa LLM.

Point sa Pag-optimize	Problema nga Makita	Specific nga Buhaton	Epekto
Hybrid Retrieval	Ang vector retrieval dili makamatch sa eksaktong termino (e.g., product model `ABC-123`), ang keyword retrieval dili makasabot sa synonyms.	Gamita ang vector retrieval (semantic) ug BM25 (keyword) dungan, pinaagi sa weighted (e.g., 0.7vector + 0.3BM25) o rerank fusion.	Pagtaas sa recall +10~25%
Reranking	Ang unang pipila ka resulta sa vector retrieval dili kanunay pinakarelevant, ang ika-10 ang pinakamaayo.	Gamita ang cross‑encoder model (e.g., `BGE‑reranker-v2`, Cohere Rerank) para mag-re-score sa candidate set (e.g., top 20), unya kuhaa ang top‑K.	Dako nga pagtaas sa hit rate (ilabi na sa top‑1)
Query Rewriting	Ang user question dili klaro o dili kompleto ang referent sa multi-turn dialogue ("Unsa ang presyo niini?").	Gamita ang LLM para i-rewrite ang original question ngadto sa mas angay nga porma para sa retrieval (e.g., "Unsa ang presyo sa iPhone 15?"); o gamita ang dialogue history para kompletohon.	Pagtaas sa recall +5~15%
HyDE	Ang user question mubo ra o abstract (e.g., "Isulti ang bahin sa photosynthesis"), diretso nga retrieval dili maayo.	Una, ipa-generate sa LLM ang hypothetical answer, unya gamita kini nga answer para mag-retrieve sa mga dokumento.	Maayo para sa open-domain, pero dili para sa fact-based precise QA
Retrieval Top‑K Adjustment	Gamay ra ang K nga mawala ang importanteng info; dako ra ang K nga modaghan ang token consumption ug noise.	Eksperimento sa K=3/5/10, obserbahan ang balance sa recall ug answer faithfulness.	Trade‑off tali sa efficiency ug effectiveness

Ikatulo: Pag-optimize sa Generation Side (Pagpaayo nga ang LLM mogamit ug maayo sa references)

Bisan unsa ka maayo ang retrieval, kung dili maayo ang prompt o ang model, wala ray kapuslanan.

Point sa Pag-optimize	Problema nga Makita	Specific nga Buhaton	Epekto
Prompt Engineering	Ang LLM wala magtagad sa retrieved content, o naghimo hinuon og butang.	Ibutang ang tin-aw nga instruksiyon: "Base lang sa mosunod nga references nga gihatag ang tubag. Kung kulang o dili relevant ang info, tubaga og 'walay igong impormasyon'." Idugang ang few‑shot examples nga nagpakita unsaon pag-cite sa sources.	Pagtaas sa faithfulness +20~40%
Context Compression	Ang retrieved content taas ra (lapaw sa context window sa model), o kadaghanan noise.	Gamita ang `LLMLingua` o `Selective Context` para i-compress, tipigi lang ang pinakarelevant nga sentences una ihatag sa LLM.	Pagkunhod sa risk nga mawala ang info
LLM Model Upgrade	Gamay nga model (7B) dili makabuhat og complex reasoning, o dili makahinumdom sa taas nga context.	Gamita ang mas kusgan nga model (GPT‑4o, Claude 3.5 Sonnet, Qwen2.5‑72B).	Dako nga pagtaas sa accuracy sa reasoning
Streaming ug Citations	Dili ma-validate sa user ang credibility sa answer.	Sa generation, ipa-output sa LLM ang `[citation:1]` nga motumbok sa document ID. Ihatag ang link sa original text sa backend.	Pagsalig sa user + debuggability
Refusal Calibration	Nag-imbento ang model kung di dapat, o wala motubag kung di dapat.	Ibutang ang similarity threshold: kung ang cosine similarity sa top‑1 chunk ubos sa 0.7, i-prompt ang LLM nga "dili relevant ang info".	Pagkunhod sa hallucination rate

Ikaupat: Evaluation ug Iteration Side (Pagkahibalo asa padulong ang adjustments)

Kung walay sukod, walay optimization.

Point sa Pag-optimize	Buhaton	Metric
Paghimo og Evaluation Set	Pag-andam og 100~300 ka tinuod nga user questions + standard answers + hustong retrieval document IDs.	Cover sa lain-laing kalisod ug intention.
Automated Evaluation	Gamit ang RAGAS (Faithfulness, Answer Relevance, Context Recall) o TruLens.	Tulo ka core metrics: faithfulness, answer relevance, context recall.
Human Evaluation	Matag semana, random test 20 ka bad cases, analisaha ang tipo sa sayop (retrieval failure / generation error / kulang ang knowledge base).	Prioritize improvements.
A/B Testing	Sa production environment, i-bucket test ang lain-laing retrieval strategies (e.g., BM25 vs hybrid retrieval).	Online metrics: user satisfaction, no-answer rate.

Ikalima: "Praktikal nga Kasinatian" nga Maka-istorya sa Interview (Points para sa bonus)

"Sa akong gipangulohan nga RAG project, ang baseline hit rate 67% lang. Naghimo ko og tulo ka butang:
1. Gibag-o ang chunking gikan sa fixed 1024 ngadto sa dynamic semantic chunking (sumala sa heading + paragraph), mitubo ang hit rate ngadto sa 74%;
2. Gidugang ang hybrid retrieval (vector + BM25) ug gamay nga rerank model, mitubo ang hit rate ngadto sa 83%;
3. Gi-optimize ang prompt ug gipugos ang [wala makitang relevant nga impormasyon], ang hallucination rate mikunhod gikan 22% ngadto sa ubos sa 5%.

Dugang pa, nagtukod mi og continuous evaluation pipeline, matag usabay nagdagan og 200 ka questions nga RAGAS scores, aron masigurado nga walay degradation."

Katapusang Summary: Kompletong RAG Optimization Roadmap

Data Layer ─→ Document cleaning, chunk optimization, metadata enhancement, domain embedding
Retrieval Layer ─→ Hybrid retrieval, rerank, query rewriting, HyDE, Top-K tuning
Generation Layer ─→ Prompt strengthening, instruction requirements, compression, citations, refusal threshold
Evaluation Layer ─→ Evaluation set, RAGAS, human analysis, A/B experiments