← 返回列表

AI-Serie Interviewfroen 11: Wéi optiméiert een RAG?

D'Optimiséierung vum RAG ass net eng eenzel Upassung, mee e vollketten Optimiséierungsprozess. Hei ginn ech systematesch Optimiséierungsstrategien aus de véier Dimensiounen Datenindexéierung, Recherche, Generatioun an Evaluatioun, mat prakteschen Erfarungen déi an engem Interview ernimmt kënne ginn.


1. Optimiséierung vun der Datenindexéierung (Verbesserung vun der "Wëssensdatebank" Qualitéit)

Dëst ass de Plaz deen am meeschten iwwersinn gëtt, awer am séiersten Effekt weist.

Optimiséierungspunkt Probleem Konkret Moossnam Effektmooss
Dokumentparserung PDF-Tabellen, Flossdiagrammer ginn ignoréiert, oder Text ass duerchernee oder falsch ugeuerdnet. Bessere Parsebibliothéiken benotzen (z.B. unstructured, pypdf Layout-Erhalungsmodus); fir Tabellen mat pandas extrahéieren an a Markdown ëmwandelen. Réckruffquote +5-15%
Textchunk-Gréisst Chunk ze kleng verléiert Kontext (z.B. "Hien" am "Seng Akommes stoung" geet verluer); Chunk ze grouss bréngt Recherche-Rauschen. Verschidde Chunk-Gréissten experimentéieren (256/512/768 Token), Overlap op 10-20% setzen; fir laang Dokumenter, no semantesche Grenzen (Paragraphen/Titelen) schneiden anstatt fixer Längt. Trefferquot / Treiheet
Metadaten bäisetzen Relevant Passage fonnt, awer keng Quelle- oder Zäitinformatioun, oder Filter no Domain néideg. Fir all Chunk Metadaten bäisetzen: source (Dateinumm/URL), timestamp, page_num, doc_type. Bei der Recherche Filtere benotzen (z.B. doc_type == 'legal'). Filtergenauegkeet
Embedding-Modellwiel Allgemeng Embedding funktionnéiert schlecht a spezifesche Beräicher (Medezin, Code, Droit). Domain-feinjustéiert Modeller benotzen (BGE-large-zh, GTE-Qwen2-7B-instruct); oder eegen Embedding-Modell feinjustéieren (mat Triplet Loss). Recherche MRR@10 +10-20%

2. Optimiséierung vun der Recherche (Méi genee "Noliesen")

D'Recherche bestëmmt d'Qualitéit vun den "Referenzmaterialien" déi dem LLM gefiddert ginn.

Optimiséierungspunkt Probleem Konkret Moossnam Effekt
Hybrid-Recherche Vektor-Recherche kann net prezis Begrëffer matching (z.B. Produktmodell ABC-123), Keyword-Recherche versteet keng Synonymen. Zur selwechter Zäit Vektor-Recherche (semantesch) a BM25 (Keywords) benotzen, duerch Gewiichtung (z.B. 0.7Vektor + 0.3BM25) oder Rerank-Fusioun. Réckruffquote +10-25%
Reranking Déi éischt Resultater vun der Vektor-Recherche si net onbedéngt déi relevantst, déi 10. ass vläicht déi bescht. E Cross-Encoder-Modell (z.B. BGE-reranker-v2, Cohere Rerank) benotze fir d'Kandidateset (z.B. déi éischt 20) nei ze bewerten an Top-K ze huelen. Trefferquot verbessert (besonnesch Top-1)
Ufro-Ëmschreiwung D'Fro vum Benotzer ass onkloer oder an enger Multi-Turn Konversatioun sinn Referenzen onkloer ("Wat kascht et?"). De LLM benotze fir d'Originalfro an eng méi gëeegent Form fir d'Recherche ëmzeschreiwen (z.B. "Wéi vill kascht den iPhone 15?"); oder Dialoggeschicht notzen fir ze komplettéieren. Réckruffquote +5-15%
HyDE D'Fro vum Benotzer ass ze kuerz oder ze abstrakt (z.B. "Erkläer Fotosynthes"), direkt Recherche ass schlecht. Den LLM fir d'éischt eng hypothetesch Äntwert generéieren loossen, dann dës Äntwert benotze fir an den Dokumenter ze sichen. Gëeegent fir oppe Beräicher, net fir faktenbaséiert prezis Froen
Top-K Upassung K ze kleng kann wichteg Informatioun verpassen; K ze grouss erhéicht Tokenverbrauch a Rauschen. K=3/5/10 experimentéieren, d'Gläichgewiicht tëscht Réckruffquote an Äntwerttreiheet beobachten. Effizienz vs. Effekt Kompromëss

3. Optimiséierung vun der Generatioun (De LLM soll d'Referenzmaterial gutt notzen)

Wat hëlleft déi bescht Recherche, wann de Prompt schlecht ass oder de Modell net genuch ass.

Optimiséierungspunkt Probleem Konkret Moossnam Effekt
Prompt-Engineering Den LLM ignoréiert d'Rechercheresultater oder erfindt Saachen. Kloer Instruktioun: "Nëmmen op Basis vun de folgende Referenzmaterialien äntweren. Wann d'Material net genuch oder irrelevant ass, äntwert 'Net genuch Informatioun'." Plus few-shot Beispiller weise wéi Quelle zitéiert ginn. Treiheet +20-40%
Kontextkompressioun Déi erausgesichten Inhalter si ze laang (méi wéi de Kontextfenster vum Modell) oder meeschtens Rauschen. LLMLingua oder "selektive Kontext" Kompressioun benotze, nëmmen déi relevantst Sätz behalen an dann un den LLM schécken. Verloscht u wichteger Informatioun reduzéieren
LLM-Modellupgrade Kleng Modeller (7B) kënne keng komplex Reasoning maachen oder laang Kontext net erënneren. Stäerk Modeller benotzen (GPT-4o, Claude 3.5 Sonnet, Qwen2.5-72B). Reasoning-Genauegkeet verbessert
Streaming a Zitater De Benotzer kann d'Vertraue vun der Äntwert net iwwerpréiwen. Beim Generéiere loossen den LLM [citation:1] ausginn, wat der Nummer vum recherchéierten Dokument entsprécht. Op der Backend-Säit gëtt de Link zum Original bäigesat. Benotzervertrauen + Debugméiglechkeet
Refusantwort Kalibriéierung De Modell erfindt Saachen wann hie sollt net äntweren, oder seet 'weess net' wann hie sollt äntweren. E Similaritéitsthreshold setzen: Wann den Top-1 Chunk eng Cosinus-Ähnlechkeet vun <0.7 mat der Fro huet, dem LLM signaliséieren "Material net relevant". Halluzinatiounsquote reduzéieren

4. Evaluatioun an Iteratioun (Wësse wou et ajustéiert gëtt)

Ouni Miessung keng Optimiséierung.

Optimiséierungspunkt Moossnam Indikator
Evaluatiounsset opbauen 100-300 richteg Benotzerfroen + Standardäntwerten + korrekt recherchéiert Dokument IDs virbereeden. Ofdeckung vu verschiddene Schwieregkeetsgraden an Intentiounen.
Automatesch Evaluatioun RAGAS (Treiheet, Äntwertrelevanz, Kontext-Réckruff) oder TruLens benotzen. Dräi Kärindikatoren: Treiheet, Äntwertrelevanz, Kontext-Réckruff.
Manuell Evaluatioun All Woch 20 schlecht Fäll steecheprowei analyséieren, Fehlertypen identifizéieren (Recherchefehler / Generatiounsfehler / Wëssenslücken). Verbesserungsprioritéite festleeën.
A/B-Test An der Produktioun verschidde Recherchestrategien (z.B. BM25 vs. Hybrid-Recherche) a Bëtsser testen. Online Indikatoren: Benotzerzefriddenheet, Taux vun Äntwerten ouni Resultat.

5. "Praktesch Erfarungen" déi am Interview ernimmt kënne ginn (Bonus)

"An engem RAG-Projet, un deem ech geschafft hunn, war d'Baseline-Trefferquote nëmmen 67%. Ech hunn dräi Saache gemaach:
1. D'Chunks vun enger fixer Längt vun 1024 op eng dynamesch semantesch Deelung geännert (no Titelen + Paragraphen), d'Trefferquote op 74% bruecht;
2. Hybrid-Recherche (Vektor + BM25) an e klenge Rerank-Modell bäigesat, d'Trefferquote op 83% erhéicht;
3. De Prompt optimiséiert an obligatoresch 'Keng relevant Informatioun fonnt' verlaangt, d'Halluzinatiounsquote vun 22% op ënner 5% reduzéiert.

Ausserdeem hu mir eng kontinuéierlecht Evaluatiounspipeline opgebaut, all Kéier ier mir Ännerungen gemaach hunn, 200 Froen mat RAGAS getest, fir sécherzestellen datt keng Verschlechterung geschitt."


Finale Resumé: Eng komplett RAG-Optimiséierungs-Routekaart

Datenlayer → Dokumentreinigung, Chunk-Optimiséierung, Metadaten-Upreicherung, Domain-Embedding
Recherchelayer → Hybrid-Recherche, Rerank, Ufro-Ëmschreiwung, HyDE, Top-K Upassung
Generatiounslayer → Prompt-Verstäerkung, Instruktiounen, Kompressioun, Zitater, Refusthreshold
Evaluatiounslayer → Evaluatiounsset, RAGAS, manuell Analyse, A/B-Experimenter

评论

暂无已展示的评论。

发表评论(匿名)