AI-Serie Interviewfroen 11: Wéi optiméiert een RAG?

D'Optimiséierung vum RAG ass net eng eenzel Upassung, mee e vollketten Optimiséierungsprozess. Hei ginn ech systematesch Optimiséierungsstrategien aus de véier Dimensiounen Datenindexéierung, Recherche, Generatioun an Evaluatioun, mat prakteschen Erfarungen déi an engem Interview ernimmt kënne ginn.

1. Optimiséierung vun der Datenindexéierung (Verbesserung vun der "Wëssensdatebank" Qualitéit)

Dëst ass de Plaz deen am meeschten iwwersinn gëtt, awer am séiersten Effekt weist.

Optimiséierungspunkt	Probleem	Konkret Moossnam	Effektmooss
Dokumentparserung	PDF-Tabellen, Flossdiagrammer ginn ignoréiert, oder Text ass duerchernee oder falsch ugeuerdnet.	Bessere Parsebibliothéiken benotzen (z.B. `unstructured`, `pypdf` Layout-Erhalungsmodus); fir Tabellen mat `pandas` extrahéieren an a Markdown ëmwandelen.	Réckruffquote +5-15%
Textchunk-Gréisst	Chunk ze kleng verléiert Kontext (z.B. "Hien" am "Seng Akommes stoung" geet verluer); Chunk ze grouss bréngt Recherche-Rauschen.	Verschidde Chunk-Gréissten experimentéieren (256/512/768 Token), Overlap op 10-20% setzen; fir laang Dokumenter, no semantesche Grenzen (Paragraphen/Titelen) schneiden anstatt fixer Längt.	Trefferquot / Treiheet
Metadaten bäisetzen	Relevant Passage fonnt, awer keng Quelle- oder Zäitinformatioun, oder Filter no Domain néideg.	Fir all Chunk Metadaten bäisetzen: `source` (Dateinumm/URL), `timestamp`, `page_num`, `doc_type`. Bei der Recherche Filtere benotzen (z.B. `doc_type == 'legal'`).	Filtergenauegkeet
Embedding-Modellwiel	Allgemeng Embedding funktionnéiert schlecht a spezifesche Beräicher (Medezin, Code, Droit).	Domain-feinjustéiert Modeller benotzen (BGE-large-zh, GTE-Qwen2-7B-instruct); oder eegen Embedding-Modell feinjustéieren (mat Triplet Loss).	Recherche MRR@10 +10-20%

2. Optimiséierung vun der Recherche (Méi genee "Noliesen")

D'Recherche bestëmmt d'Qualitéit vun den "Referenzmaterialien" déi dem LLM gefiddert ginn.

Optimiséierungspunkt	Probleem	Konkret Moossnam	Effekt
Hybrid-Recherche	Vektor-Recherche kann net prezis Begrëffer matching (z.B. Produktmodell `ABC-123`), Keyword-Recherche versteet keng Synonymen.	Zur selwechter Zäit Vektor-Recherche (semantesch) a BM25 (Keywords) benotzen, duerch Gewiichtung (z.B. 0.7Vektor + 0.3BM25) oder Rerank-Fusioun.	Réckruffquote +10-25%
Reranking	Déi éischt Resultater vun der Vektor-Recherche si net onbedéngt déi relevantst, déi 10. ass vläicht déi bescht.	E Cross-Encoder-Modell (z.B. `BGE-reranker-v2`, Cohere Rerank) benotze fir d'Kandidateset (z.B. déi éischt 20) nei ze bewerten an Top-K ze huelen.	Trefferquot verbessert (besonnesch Top-1)
Ufro-Ëmschreiwung	D'Fro vum Benotzer ass onkloer oder an enger Multi-Turn Konversatioun sinn Referenzen onkloer ("Wat kascht et?").	De LLM benotze fir d'Originalfro an eng méi gëeegent Form fir d'Recherche ëmzeschreiwen (z.B. "Wéi vill kascht den iPhone 15?"); oder Dialoggeschicht notzen fir ze komplettéieren.	Réckruffquote +5-15%
HyDE	D'Fro vum Benotzer ass ze kuerz oder ze abstrakt (z.B. "Erkläer Fotosynthes"), direkt Recherche ass schlecht.	Den LLM fir d'éischt eng hypothetesch Äntwert generéieren loossen, dann dës Äntwert benotze fir an den Dokumenter ze sichen.	Gëeegent fir oppe Beräicher, net fir faktenbaséiert prezis Froen
Top-K Upassung	K ze kleng kann wichteg Informatioun verpassen; K ze grouss erhéicht Tokenverbrauch a Rauschen.	K=3/5/10 experimentéieren, d'Gläichgewiicht tëscht Réckruffquote an Äntwerttreiheet beobachten.	Effizienz vs. Effekt Kompromëss

3. Optimiséierung vun der Generatioun (De LLM soll d'Referenzmaterial gutt notzen)

Wat hëlleft déi bescht Recherche, wann de Prompt schlecht ass oder de Modell net genuch ass.

Optimiséierungspunkt	Probleem	Konkret Moossnam	Effekt
Prompt-Engineering	Den LLM ignoréiert d'Rechercheresultater oder erfindt Saachen.	Kloer Instruktioun: "Nëmmen op Basis vun de folgende Referenzmaterialien äntweren. Wann d'Material net genuch oder irrelevant ass, äntwert 'Net genuch Informatioun'." Plus few-shot Beispiller weise wéi Quelle zitéiert ginn.	Treiheet +20-40%
Kontextkompressioun	Déi erausgesichten Inhalter si ze laang (méi wéi de Kontextfenster vum Modell) oder meeschtens Rauschen.	`LLMLingua` oder "selektive Kontext" Kompressioun benotze, nëmmen déi relevantst Sätz behalen an dann un den LLM schécken.	Verloscht u wichteger Informatioun reduzéieren
LLM-Modellupgrade	Kleng Modeller (7B) kënne keng komplex Reasoning maachen oder laang Kontext net erënneren.	Stäerk Modeller benotzen (GPT-4o, Claude 3.5 Sonnet, Qwen2.5-72B).	Reasoning-Genauegkeet verbessert
Streaming a Zitater	De Benotzer kann d'Vertraue vun der Äntwert net iwwerpréiwen.	Beim Generéiere loossen den LLM `[citation:1]` ausginn, wat der Nummer vum recherchéierten Dokument entsprécht. Op der Backend-Säit gëtt de Link zum Original bäigesat.	Benotzervertrauen + Debugméiglechkeet
Refusantwort Kalibriéierung	De Modell erfindt Saachen wann hie sollt net äntweren, oder seet 'weess net' wann hie sollt äntweren.	E Similaritéitsthreshold setzen: Wann den Top-1 Chunk eng Cosinus-Ähnlechkeet vun <0.7 mat der Fro huet, dem LLM signaliséieren "Material net relevant".	Halluzinatiounsquote reduzéieren

4. Evaluatioun an Iteratioun (Wësse wou et ajustéiert gëtt)

Ouni Miessung keng Optimiséierung.

Optimiséierungspunkt	Moossnam	Indikator
Evaluatiounsset opbauen	100-300 richteg Benotzerfroen + Standardäntwerten + korrekt recherchéiert Dokument IDs virbereeden.	Ofdeckung vu verschiddene Schwieregkeetsgraden an Intentiounen.
Automatesch Evaluatioun	RAGAS (Treiheet, Äntwertrelevanz, Kontext-Réckruff) oder TruLens benotzen.	Dräi Kärindikatoren: Treiheet, Äntwertrelevanz, Kontext-Réckruff.
Manuell Evaluatioun	All Woch 20 schlecht Fäll steecheprowei analyséieren, Fehlertypen identifizéieren (Recherchefehler / Generatiounsfehler / Wëssenslücken).	Verbesserungsprioritéite festleeën.
A/B-Test	An der Produktioun verschidde Recherchestrategien (z.B. BM25 vs. Hybrid-Recherche) a Bëtsser testen.	Online Indikatoren: Benotzerzefriddenheet, Taux vun Äntwerten ouni Resultat.

5. "Praktesch Erfarungen" déi am Interview ernimmt kënne ginn (Bonus)

"An engem RAG-Projet, un deem ech geschafft hunn, war d'Baseline-Trefferquote nëmmen 67%. Ech hunn dräi Saache gemaach:
1. D'Chunks vun enger fixer Längt vun 1024 op eng dynamesch semantesch Deelung geännert (no Titelen + Paragraphen), d'Trefferquote op 74% bruecht;
2. Hybrid-Recherche (Vektor + BM25) an e klenge Rerank-Modell bäigesat, d'Trefferquote op 83% erhéicht;
3. De Prompt optimiséiert an obligatoresch 'Keng relevant Informatioun fonnt' verlaangt, d'Halluzinatiounsquote vun 22% op ënner 5% reduzéiert.

Ausserdeem hu mir eng kontinuéierlecht Evaluatiounspipeline opgebaut, all Kéier ier mir Ännerungen gemaach hunn, 200 Froen mat RAGAS getest, fir sécherzestellen datt keng Verschlechterung geschitt."

Finale Resumé: Eng komplett RAG-Optimiséierungs-Routekaart

Datenlayer → Dokumentreinigung, Chunk-Optimiséierung, Metadaten-Upreicherung, Domain-Embedding
Recherchelayer → Hybrid-Recherche, Rerank, Ufro-Ëmschreiwung, HyDE, Top-K Upassung
Generatiounslayer → Prompt-Verstäerkung, Instruktiounen, Kompressioun, Zitater, Refusthreshold
Evaluatiounslayer → Evaluatiounsset, RAGAS, manuell Analyse, A/B-Experimenter