Pitakonan Wawancara AI Seri 11: Kepiye Cara Ngoptimalake RAG?

Optimalisasi RAG dudu prayoga saka siji bagean, nanging proses optimalisasi rantai lengkap. Ing ngisor iki aku menehi strategi optimalisasi sistematis saka sisih indeks data, sisih retrieval, sisih generasi, lan sisih evaluasi, lan uga pengalaman praktis sing bisa disebutake ing wawancara.

I. Optimalisasi sisih indeks data (ningkatake kualitas "perpustakaan pengetahuan")

Iki minangka panggonan sing paling gampang dilalekake nanging paling cepet efek.

Titik Optimalisasi	Fenomena Masalah	Cara Spesifik	Indikator Efek
Parsing dokumen	Tabel, diagram alir ing PDF ora digatekake, utawa teks kacau, urutan salah.	Ganti pustaka parsing sing luwih apik (kayata `unstructured`, mode retensi tata letak `pypdf`); kanggo tabel, gunakake `pandas` kanggo ngekstrak banjur diowahi dadi Markdown.	Recall +5~15%
Ukuran potongan teks	Chunk cilik banget kelangan konteks (kayata "dheweke" ing "Penghasilane taun iki mundhak" ilang referensi); chunk gedhe banget njalari gangguan retrieval.	Eksperimen ukuran chunk beda (256/512/768 token), overlap 10~20%; kanggo dokumen dawa, potong miturut wates semantik (paragraf/judul) tinimbang dawa tetep.	Hit rate / Kasetyan
Lampiran metadata	Ketemu paragraf sing relevan nanging ora bisa dilacak sumber utawa wektu, utawa perlu nyaring miturut domain.	Tambah metadata kanggo saben chunk: `source` (jeneng berkas/URL), `timestamp`, `page_num`, `doc_type`. Nalika retrieval gunakake filter (kayata `doc_type == 'legal'`).	Akurasi filtrasi
Pilihan model embedding	Embedding umum kurang apik ing domain vertikal (medis, kode, hukum).	Gunakake model sing dilatih domain (BGE-large-zh, GTE-Qwen2-7B-instruct); utawa dilatih model embedding dhewe (nganggo triplet loss).	MRR@10 retrieval +10~20%

II. Optimalisasi sisih retrieval (gawé "mbukak buku" luwih akurat)

Retrieval nemtokake kualitas "referensi" sing diwenehake menyang LLM.

Titik Optimalisasi	Fenomena Masalah	Cara Spesifik	Efek
Retrieval campuran	Retrieval vektor ora bisa cocog istilah tepat (kayata model produk `ABC-123`), retrieval tembung kunci ora bisa ngerti sinonim.	Gunakake retrieval vektor (semantik) lan BM25 (tembung kunci) bebarengan, liwat bobot (kayata 0.7vektor + 0.3BM25) utawa gabung rerank.	Recall +10~25%
Rerank	Asil sing paling dhuwur saka retrieval vektor ora mesthi paling relevan, sing nomer 10 malah paling apik.	Gunakake model cross-encoder (kayata `BGE-reranker-v2`, Cohere Rerank) kanggo menehi skor maneh kandidat set (kayata 20 sing paling dhuwur), njupuk top-K.	Hit rate mundhak signifikan (utamane top-1)
Nulis ulang pitakonan	Pitakonan pangguna samar utawa referensi ora jelas ing dialog multi-puter ("Regane piye?").	Gunakake LLM kanggo nulis ulang pitakonan asli dadi bentuk sing luwih cocog kanggo retrieval (kayata "Pira regane iPhone 15?"); utawa nglengkapi riwayat dialog.	Recall +5~15%
HyDE	Pitakonan pangguna cekak banget utawa abstrak (kayata "Terangna fotosintesis"), retrieval langsung ora apik.	Kenei LLM ngasilake jawaban hipotetis, banjur gunakake jawaban iki kanggo retrieval dokumen.	Cocog kanggo domain terbuka, nanging ora kanggo pitakonan faktual tepat
Penyesuaian jumlah retrieval Top-K	K cilik bisa ngilangi informasi penting; K gedhe nambah konsumsi token lan gangguan.	Eksperimen K=3/5/10, amati imbangan recall lan kasetyan jawaban.	Trade-off efisiensi lan efek

III. Optimalisasi sisih generasi (gawé LLM nggunakake referensi kanthi apik)

Retrieval akurat, nanging yen prompt utawa model ora apik, tetep ora ana gunane.

Titik Optimalisasi	Fenomena Masalah	Cara Spesifik	Efek
Rekayasa prompt	LLM ora nggatekake konten retrieval, utawa ngawur.	Instruksi sing jelas: "Mung adhedhasar referensi sing diwenehake ing ngisor iki wangsulana pitakonan. Yen materi kurang utawa ora relevan, wangsulana 'Ora ana informasi sing cukup'." Tambah few-shot examples sing nuduhake cara ngutip sumber.	Kasetyan +20~40%
Kompresi konteks	Konten retrieval dawa banget (ngluwihi jendhela konteks model), utawa akeh gangguan.	Gunakake `LLMLingua` utawa `konteks selektif` kanggo kompresi, njaga ukara sing paling relevan sadurunge dikirim menyang LLM.	Ngurangi risiko kelangan informasi
Upgrade model LLM	Model cilik (7B) ora bisa nindakake penalaran kompleks, utawa ora bisa ngelingi konteks dawa.	Ganti model sing luwih kuat (GPT-4o, Claude 3.5 Sonnet, Qwen2.5-72B).	Akurasi penalaran mundhak drastis
Streaming lan kutipan	Pangguna ora bisa verifikasi kapercayan jawaban.	Nalika generasi, kenei LLM ngetokake `[citation:1]`, cocog karo nomor dokumen retrieval. Backend lampirake link asli.	Kapercayan pangguna + bisa debugging
Kalibrasi nolak wangsulan	Model ngawur nalika ora kudu wangsulan, utawa ora wangsulan nalika kudu.	Setel ambang similaritas: yen chunk top-1 sing diretriksi nduweni similaritas cosinus kurang saka 0.7 karo pitakonan, instruksi LLM "Materi ora relevan".	Ngurangi tingkat halusinasi

IV. Sisih evaluasi lan iterasi (ngerti arep dioptimalake ing endi)

Tanpa ukuran, ora bisa optimalisasi.

Titik Optimalisasi	Cara	Indikator
Nggawe set evaluasi	Siapake 100~300 pitakonan pangguna nyata + jawaban standar + ID dokumen retrieval sing bener.	Nutupi tingkat kesulitan lan maksud sing beda.
Evaluasi otomatis	Gunakake RAGAS (Faithfulness, Answer Relevance, Context Recall) utawa TruLens.	Telung indikator inti: kasetyan, relevansi jawaban, recall konteks.
Evaluasi manual	Saben minggu uji 20 bad case, analisa jinis kesalahan (gagal retrieval / kesalahan generasi / kekurangan perpustakaan pengetahuan).	Prioritas perbaikan.
Tes A/B	Ing lingkungan produksi, uji strategi retrieval beda ing ember (contone BM25 vs retrieval campuran).	Indikator online: kepuasan pangguna, tingkat tanpa jawaban.

V. Pengalaman praktis sing bisa disebutake ing wawancara (nilai tambah)

"Ing proyek RAG sing daktanggung jawabi, wiwitane hit rate baseline mung 67%. Aku nindakake telung perkara:
1. Ngganti potongan saka 1024 tetep dadi potongan semantik dinamis (miturut judul + paragraf), hit rate dadi 74%;
2. Nambah retrieval campuran (vektor + BM25) lan model rerank cilik, hit rate dadi 83%;
3. Ngoptimalake prompt lan meksa nggunakake [Ora ana informasi sing ditemokake], tingkat halusinasi mudhun saka 22% dadi kurang saka 5%.

Kajaba iku, kita nggawe pipeline evaluasi terus-terusan, saben owah-owahan mbukak skor RAGAS kanggo 200 pitakonan kanggo mesthekake ora ana degradasi."

Ringkesan pungkasan: Peta jalan optimalisasi RAG sing lengkap

Lapisan data  ─→ Pembersihan dokumen, optimalisasi potongan, penguatan metadata, embedding domain
Lapisan retrieval ─→ Retrieval campuran, rerank, nulis ulang pitakonan, HyDE, optimalisasi Top-K
Lapisan generasi ─→ Penguatan prompt, instruksi syarat, kompresi, kutipan, ambang penolakan
Lapisan evaluasi ─→ Set evaluasi, RAGAS, analisis manual, eksperimen A/B