KI-Serie Interview 9: Wie beurteilt man die Genauigkeit von Wissensfrage-Antwortsystemen?

Die Genauigkeit ist die Kernlebenslinie eines Wissensfrage-Antwortsystems, insbesondere wenn man es in ernsthaften Szenarien (wie Medizin, Recht, interne Unternehmensunterstützung) einsetzen möchte. Meine Ansicht lässt sich wie folgt zusammenfassen: Die Genauigkeit ist ein mehrdimensionales Konzept; man sollte nicht nur eine einzelne Zahl betrachten, sondern sie in Verbindung mit der Systemfähigkeit, der Aufgabenschwierigkeit und den Kosten von Fehlern umfassend bewerten.

Im Folgenden wird dies aus vier Ebenen dargestellt:

I. Genauigkeit ist nicht einfach „richtig/falsch“

Bei traditionellen Klassifikationsproblemen (wie Bilderkennung) ist die Genauigkeit klar. Anders bei Wissensfrage-Antwortsystemen; übliche Unterscheidungsdimensionen umfassen:

Dimension	Bedeutung	Bewertungsbeispiel
Trefferquote bei der Suche	Kann das System aus der Wissensdatenbank die Dokumentabschnitte finden, die die richtige Antwort enthalten?	Der Benutzer fragt „Umsatz der Firma A im Jahr 2024“, kann das System den Abschnitt des Geschäftsberichts mit diesen Daten finden?
Generierungstreue	Basieren die generierten Antworten streng auf den gefundenen Inhalten, anstatt sie zu erfinden?	Die gefundenen Daten erwähnen keine „Wachstumsrate“, aber das Modell sagt „um 5% gestiegen“ → untreu
Richtigkeit der Antwort	Stimmt die endgültige Antwort mit den Fakten (oder der Referenzantwort) überein?	Die richtige Antwort ist „4,2 Milliarden“, das Modell gibt „4,2 Milliarden“ oder „etwa 4,2 Milliarden Yuan“ aus, beides kann als richtig gelten
Verweigerungsrate	Kann das System aktiv „weiß nicht“ sagen, anstatt zu raten, wenn die Wissensdatenbank keine relevanten Informationen enthält?	Bei leerer Suche oder niedriger Konfidenz gibt das System „Entschuldigung, keine relevanten Informationen gefunden“ aus

Ein System kann eine hohe Trefferquote bei der Suche haben (findet immer relevante Abschnitte), aber eine niedrige Generierungstreue (schmückt immer aus), sodass die endgültige Genauigkeit dennoch schlecht ist. Daher sollte man bei der Betrachtung der Genauigkeit zuerst klären, welche Komponente gemessen wird.

II. Unter dem aktuellen technologischen Stand: Wie hoch kann die Genauigkeit von RAG-Systemen sein?

Es gibt keine einheitliche Zahl, aber man kann sich auf einige öffentliche Forschungen und Praktiken stützen:

Einfache faktenbasierte Fragen (Ein-Sprung, Antwort direkt in einem Abschnitt):
Trefferquote bei der Suche: 90-98% (abhängig von der Qualität der Wissensdatenbank und des Retrievers), Generierungstreue bei gut gestalteten Prompts: 95%+, Gesamtgenauigkeit: 85-95%.
Mehrsprung-Schlussfolgerungen (Kombination von Informationen aus zwei oder mehr verschiedenen Abschnitten):
Suchgenauigkeit fällt drastisch auf 50-70%, Richtigkeit der generierten Antwort kann nur 40-60% betragen. Dies ist derzeit die Hauptschwierigkeit von RAG.
Offene Domäne + verrauschte Wissensdatenbank (z. B. riesige Webseiten):
Die Genauigkeit sinkt erheblich, da die Suche Rauschen einführen kann und das Modell leicht gestört wird.

Fazit: In kontrollierten Umgebungen (sauber, strukturiert, geeignete Dokumentgranularität) kann RAG Genauigkeiten über 90% erreichen; in komplexen, offenen Szenarien, die mehrstufige Schlussfolgerungen erfordern, ist die Genauigkeit oft unbefriedigend und erfordert umfangreiche Optimierungen.

III. Kernfaktoren, die die Genauigkeit beeinflussen

Wenn Sie feststellen, dass die Genauigkeit Ihres RAG-Systems nicht ideal ist, können Sie in der Regel in den folgenden vier Schritten nach Ursachen suchen:

Wissensdatenbank selbst
Sind die Daten veraltet, unvollständig oder sogar fehlerhaft?
Sind die Dokumente chaotisch (z. B. gescannte Dokumente ohne OCR, Tabellen in verstümmelten Text)?
Aufteilung und Indexierung
Textblöcke zu kurz geschnitten → Kontextverlust; zu lang geschnitten → Rauschen.
Ist das Einbettungsmodell für Ihre Domäne geeignet (allgemeine Modelle können bei juristischen Begriffen schlecht abschneiden)?
Suchstrategie
Nur Vektorsuche kann präzise Schlüsselwörter (z. B. Produktmodelle) übersehen.
Fehlendes Re-Ranking führt zu irrelevanten Inhalten in den Top-Ergebnissen.
Generierungsschritt
Fordert der Prompt explizit: „Antworte nur basierend auf den bereitgestellten Informationen, wenn nicht ausreichend, verweigere die Antwort“?
Ist die Modellfähigkeit ausreichend (kleine Modelle übersehen leicht Details in langen Kontexten)?

Ein häufiges Missverständnis: Eine niedrige Genauigkeit wird direkt auf die unzureichende Fähigkeit des LLM zurückgeführt, aber in den meisten Fällen liegen die Probleme bei der „Suche“ und dem „Prompt-Design“.

IV. Wie man die Genauigkeit richtig „betrachtet“ – einige Schlüsseleinstellungen in der Praxis

1. Realistische Benchmarks und Erwartungen setzen

In risikoreichen Bereichen (medizinische Diagnose, rechtliche Beratung) reichen selbst 90% Genauigkeit nicht aus; menschliche Überprüfung oder mehrfache Validierung ist erforderlich.
In risikoarmen Szenarien (Kundendienst, interne Wissenssuche) können 80% Genauigkeit zusammen mit einer freundlichen „weiß nicht“-Antwort die Effizienz bereits erheblich steigern.

2. Nicht 100% anstreben, sondern „verifizierbare Genauigkeit“

Lassen Sie das System automatisch Quellenangaben hinzufügen (welcher Artikel, welcher Abschnitt).
Der Benutzer kann den Originaltext selbst überprüfen; selbst wenn die Antwort gelegentlich falsch ist, schafft Transparenz Vertrauen.
Fügen Sie Konfidenzwerte hinzu; bei niedrigen Werten aktiv darauf hinweisen: „Diese Antwort hat eine niedrige Zuverlässigkeit, bitte konsultieren Sie das Originaldokument.“

3. Genauigkeit als kontinuierlichen Optimierungsgegenstand betrachten, nicht als einmaliges Ziel

Richten Sie eine Bewertungspipeline ein: Ziehen Sie regelmäßig eine Stichprobe manuell annotierter Fragen und bewerten Sie automatisch die Trefferquote bei der Suche und die Generierungstreue.
Verwenden Sie Werkzeuge wie RAGAS oder TruLens für systematische Bewertungen, anstatt sich auf ein paar Fälle zu verlassen.
Passen Sie basierend auf Fehlerfällen ständig an: Aufteilungsmethode, Retriever-Parameter, Re-Ranking-Modell, Prompt.

4. Unterscheiden zwischen „Systemfehler“ und „Inkonsistenz mit menschlichen Standards“

Manchmal weicht die Antwort des Systems von den Erwartungen des Benutzers ab, ist aber gemäß den Informationen in der Wissensdatenbank tatsächlich korrekt (weil die Datenbank selbst Einschränkungen oder Kontroversen hat).
Hier muss definiert werden: Bezieht sich die Genauigkeit auf die „Fakten der Wissensdatenbank“ oder auf „allgemein anerkannte externe Fakten“?

Abschließende Zusammenfassung

Die Genauigkeit eines Wissensfrage-Antwortsystems ist kein statischer perfekter Wert, sondern ein umfassender Fähigkeitswert, der „Wissensabdeckung + Suchpräzision + Generierungstreue + Verweigerungsfähigkeit“ widerspiegelt. Bei der Betrachtung sollte man einerseits rational erkennen, dass die aktuelle Technologie keine Perfektion erreichen kann, andererseits durch Design wie Quellenverweise, Konfidenzhinweise und Mensch-Maschine-Kooperation den praktischen Nutzen im Geschäftsumfeld entfalten.