← 返回列表

Pitakonan Wawancara AI Seri 11: Kepiye Cara Ngoptimalake RAG?

Optimalisasi RAG dudu prayoga saka siji bagean, nanging proses optimalisasi rantai lengkap. Ing ngisor iki aku menehi strategi optimalisasi sistematis saka sisih indeks data, sisih retrieval, sisih generasi, lan sisih evaluasi, lan uga pengalaman praktis sing bisa disebutake ing wawancara.


I. Optimalisasi sisih indeks data (ningkatake kualitas "perpustakaan pengetahuan")

Iki minangka panggonan sing paling gampang dilalekake nanging paling cepet efek.

Titik Optimalisasi Fenomena Masalah Cara Spesifik Indikator Efek
Parsing dokumen Tabel, diagram alir ing PDF ora digatekake, utawa teks kacau, urutan salah. Ganti pustaka parsing sing luwih apik (kayata unstructured, mode retensi tata letak pypdf); kanggo tabel, gunakake pandas kanggo ngekstrak banjur diowahi dadi Markdown. Recall +5~15%
Ukuran potongan teks Chunk cilik banget kelangan konteks (kayata "dheweke" ing "Penghasilane taun iki mundhak" ilang referensi); chunk gedhe banget njalari gangguan retrieval. Eksperimen ukuran chunk beda (256/512/768 token), overlap 10~20%; kanggo dokumen dawa, potong miturut wates semantik (paragraf/judul) tinimbang dawa tetep. Hit rate / Kasetyan
Lampiran metadata Ketemu paragraf sing relevan nanging ora bisa dilacak sumber utawa wektu, utawa perlu nyaring miturut domain. Tambah metadata kanggo saben chunk: source (jeneng berkas/URL), timestamp, page_num, doc_type. Nalika retrieval gunakake filter (kayata doc_type == 'legal'). Akurasi filtrasi
Pilihan model embedding Embedding umum kurang apik ing domain vertikal (medis, kode, hukum). Gunakake model sing dilatih domain (BGE-large-zh, GTE-Qwen2-7B-instruct); utawa dilatih model embedding dhewe (nganggo triplet loss). MRR@10 retrieval +10~20%

II. Optimalisasi sisih retrieval (gawé "mbukak buku" luwih akurat)

Retrieval nemtokake kualitas "referensi" sing diwenehake menyang LLM.

Titik Optimalisasi Fenomena Masalah Cara Spesifik Efek
Retrieval campuran Retrieval vektor ora bisa cocog istilah tepat (kayata model produk ABC-123), retrieval tembung kunci ora bisa ngerti sinonim. Gunakake retrieval vektor (semantik) lan BM25 (tembung kunci) bebarengan, liwat bobot (kayata 0.7vektor + 0.3BM25) utawa gabung rerank. Recall +10~25%
Rerank Asil sing paling dhuwur saka retrieval vektor ora mesthi paling relevan, sing nomer 10 malah paling apik. Gunakake model cross-encoder (kayata BGE-reranker-v2, Cohere Rerank) kanggo menehi skor maneh kandidat set (kayata 20 sing paling dhuwur), njupuk top-K. Hit rate mundhak signifikan (utamane top-1)
Nulis ulang pitakonan Pitakonan pangguna samar utawa referensi ora jelas ing dialog multi-puter ("Regane piye?"). Gunakake LLM kanggo nulis ulang pitakonan asli dadi bentuk sing luwih cocog kanggo retrieval (kayata "Pira regane iPhone 15?"); utawa nglengkapi riwayat dialog. Recall +5~15%
HyDE Pitakonan pangguna cekak banget utawa abstrak (kayata "Terangna fotosintesis"), retrieval langsung ora apik. Kenei LLM ngasilake jawaban hipotetis, banjur gunakake jawaban iki kanggo retrieval dokumen. Cocog kanggo domain terbuka, nanging ora kanggo pitakonan faktual tepat
Penyesuaian jumlah retrieval Top-K K cilik bisa ngilangi informasi penting; K gedhe nambah konsumsi token lan gangguan. Eksperimen K=3/5/10, amati imbangan recall lan kasetyan jawaban. Trade-off efisiensi lan efek

III. Optimalisasi sisih generasi (gawé LLM nggunakake referensi kanthi apik)

Retrieval akurat, nanging yen prompt utawa model ora apik, tetep ora ana gunane.

Titik Optimalisasi Fenomena Masalah Cara Spesifik Efek
Rekayasa prompt LLM ora nggatekake konten retrieval, utawa ngawur. Instruksi sing jelas: "Mung adhedhasar referensi sing diwenehake ing ngisor iki wangsulana pitakonan. Yen materi kurang utawa ora relevan, wangsulana 'Ora ana informasi sing cukup'." Tambah few-shot examples sing nuduhake cara ngutip sumber. Kasetyan +20~40%
Kompresi konteks Konten retrieval dawa banget (ngluwihi jendhela konteks model), utawa akeh gangguan. Gunakake LLMLingua utawa konteks selektif kanggo kompresi, njaga ukara sing paling relevan sadurunge dikirim menyang LLM. Ngurangi risiko kelangan informasi
Upgrade model LLM Model cilik (7B) ora bisa nindakake penalaran kompleks, utawa ora bisa ngelingi konteks dawa. Ganti model sing luwih kuat (GPT-4o, Claude 3.5 Sonnet, Qwen2.5-72B). Akurasi penalaran mundhak drastis
Streaming lan kutipan Pangguna ora bisa verifikasi kapercayan jawaban. Nalika generasi, kenei LLM ngetokake [citation:1], cocog karo nomor dokumen retrieval. Backend lampirake link asli. Kapercayan pangguna + bisa debugging
Kalibrasi nolak wangsulan Model ngawur nalika ora kudu wangsulan, utawa ora wangsulan nalika kudu. Setel ambang similaritas: yen chunk top-1 sing diretriksi nduweni similaritas cosinus kurang saka 0.7 karo pitakonan, instruksi LLM "Materi ora relevan". Ngurangi tingkat halusinasi

IV. Sisih evaluasi lan iterasi (ngerti arep dioptimalake ing endi)

Tanpa ukuran, ora bisa optimalisasi.

Titik Optimalisasi Cara Indikator
Nggawe set evaluasi Siapake 100~300 pitakonan pangguna nyata + jawaban standar + ID dokumen retrieval sing bener. Nutupi tingkat kesulitan lan maksud sing beda.
Evaluasi otomatis Gunakake RAGAS (Faithfulness, Answer Relevance, Context Recall) utawa TruLens. Telung indikator inti: kasetyan, relevansi jawaban, recall konteks.
Evaluasi manual Saben minggu uji 20 bad case, analisa jinis kesalahan (gagal retrieval / kesalahan generasi / kekurangan perpustakaan pengetahuan). Prioritas perbaikan.
Tes A/B Ing lingkungan produksi, uji strategi retrieval beda ing ember (contone BM25 vs retrieval campuran). Indikator online: kepuasan pangguna, tingkat tanpa jawaban.

V. Pengalaman praktis sing bisa disebutake ing wawancara (nilai tambah)

"Ing proyek RAG sing daktanggung jawabi, wiwitane hit rate baseline mung 67%. Aku nindakake telung perkara:
1. Ngganti potongan saka 1024 tetep dadi potongan semantik dinamis (miturut judul + paragraf), hit rate dadi 74%;
2. Nambah retrieval campuran (vektor + BM25) lan model rerank cilik, hit rate dadi 83%;
3. Ngoptimalake prompt lan meksa nggunakake [Ora ana informasi sing ditemokake], tingkat halusinasi mudhun saka 22% dadi kurang saka 5%.

Kajaba iku, kita nggawe pipeline evaluasi terus-terusan, saben owah-owahan mbukak skor RAGAS kanggo 200 pitakonan kanggo mesthekake ora ana degradasi."


Ringkesan pungkasan: Peta jalan optimalisasi RAG sing lengkap

Lapisan data  ─→ Pembersihan dokumen, optimalisasi potongan, penguatan metadata, embedding domain
Lapisan retrieval ─→ Retrieval campuran, rerank, nulis ulang pitakonan, HyDE, optimalisasi Top-K
Lapisan generasi ─→ Penguatan prompt, instruksi syarat, kompresi, kutipan, ambang penolakan
Lapisan evaluasi ─→ Set evaluasi, RAGAS, analisis manual, eksperimen A/B

评论

暂无已展示的评论。

发表评论(匿名)