KI-Serie Interview 12: Wie optimiert man Prompts?

Die Prompt-Optimierung (Prompt Engineering / Optimization) ist eine Schlüsselfertigkeit, um große Sprachmodelle „gehorsam“ zu machen. Besonders in RAG-Systemen entscheidet sie direkt darüber, ob das Modell die abgerufenen Inhalte treu befolgt, Halluzinationen vermeidet und die Ausgabe formatgerecht erfolgt.

1. Kernprinzipien der Prompt-Optimierung

Klarheit > Komplexität: Einfache, direkte Anweisungen sind oft effektiver als ausgefeilte Gedankenketten.
Ausreichende Einschränkungen: Sage dem Modell klar, was es tun darf und was nicht.
Beispiele bereitstellen: Few-Shot ist stabiler als Zero-Shot.
Überprüfbarkeit: Lasse das Modell Zitate oder Konfidenzen ausgeben, um nachgelagerte Entscheidungen zu erleichtern.
Iterative Optimierung: Beginne mit einer Basislinie, ändere jedes Mal nur eine Variable und vergleiche die Ergebnisse.

2. Konkrete Optimierungstechniken (von einfach zu schwierig)

1. Rollensetting (System Prompt)

Du bist ein professioneller Kundendienst-Assistent. Du darfst nur auf der Grundlage der unten bereitgestellten [Referenzmaterialien] antworten.
Wenn du die Antwort nicht weißt, sage direkt "In den Materialien sind keine relevanten Informationen enthalten" und erfinde nichts.

Wirkung: Setzt Grenzen und Tonfall.
Optimierungspunkte: Tonfall (professionell/freundlich), Einschränkungsstärke (streng/locker).

2. Klare Anweisungen

❌ Schlecht: "Beantworte die Frage des Benutzers." ✅ Gut: "Antworte nur auf Basis der folgenden [Referenzmaterialien]. Wenn die Referenzmaterialien die Antwort nicht enthalten, antworte mit 'Ich kann diese Frage nicht beantworten'."

3. Ausgabeformatsteuerung

Bitte gib im folgenden JSON-Format aus:
{
  "answer": "deine Antwort",
  "confidence": "hoch/mittel/niedrig",
  "sources": [1, 3]
}

Verwendung: Erleichtert nachgelagerte Analyse, Zitierung und Fehlersuche.

4. Few-Shot-Beispiele (sehr effektiv)

Beispiel 1:
Frage: Wie viele Urlaubstage gibt es?
Referenzmaterial: Urlaubsregel: 1 Jahr: 5 Tage, 10 Jahre: 10 Tage.
Antwort: 1 Jahr: 5 Tage, 10 Jahre: 10 Tage.

Beispiel 2:
Frage: Wie wird Überstundenvergütung berechnet?
Referenzmaterial: Werktagsüberstunden: 1,5-fach, Wochenende: 2-fach.
Antwort: Werktags: 1,5-fach, Wochenende: 2-fach.

Jetzt antworte:
Frage: {Benutzerfrage}
Referenzmaterial: {abgerufener Inhalt}
Antwort:

Tipp: Die Beispiele sollten verschiedene Schwierigkeitsgrade abdecken, am besten einschließlich eines Beispiels, das nicht beantwortet werden kann.

5. Erzwungene Zitierung

Markiere am Ende der Antwort die Quellennummer mit [citation:X]. Beispiel: „Der Urlaubsanspruch beträgt 5 Tage [citation:1].“
Wenn mehrere Quellen kombiniert werden, markiere jede einzeln.

6. Festlegen einer Verweigerungsschwelle

Harte Einschränkung: „Wenn die Referenzmaterialien völlig irrelevant zur Frage sind, antworte mit ‚Die Materialien sind nicht relevant‘.“
Weiche Einschränkung: Kombiniere die Konfidenzwerte der Abfrage; unterschreiten sie die Schwelle, wird automatisch der Verweigerungspfad gewählt.

7. Chain-of-Thought für mehrstufige Schlussfolgerungen

Frage: Wer ist der Chef von Zhang San?
Schritte: 1. Finde zuerst die Abteilung von Zhang San. 2. Finde dann den Leiter dieser Abteilung. 3. Gib die endgültige Antwort.
Bitte denke Schritt für Schritt und gib dann die Antwort aus.

8. Negative Anweisungen (Negative Prompting)

Erfinde keine Antwort. Verwende keine vagen Wörter wie „möglicherweise“ oder „vielleicht“. Gib keine Zahlen aus, die nicht in den Referenzmaterialien enthalten sind.

3. Wie bewertet man die Qualität eines Prompts?

Metrik	Bedeutung	Messmethode
Treue	Antwort basiert strikt auf Referenzmaterialien	Manuell oder RAGAS Faithfulness
Verweigerungsgenauigkeit	Wird bei Bedarf verweigert?	Berechnung auf Testset ohne Antwort
Formatbefolgungsrate	Wird JSON/Zitierung wie gefordert ausgegeben?	Regulärer Ausdruck
Benutzerzufriedenheit	Ist die Antwort nützlich?	Online-Feedback / A/B-Test

Empfehlung: Erstelle ein kleines Testset (20-50 Grenzfälle), führe es nach jeder Prompt-Änderung durch und notiere die Veränderungen.

4. Häufige Fallstricke und Optimierungsrichtungen

Problem	Mögliche Ursache	Optimierungsmethode
Modell ignoriert Referenzmaterialien, antwortet aus eigenem Wissen	Anweisung nicht stark genug	Ändere zu „ausschließlich basierend auf den folgenden Materialien“ und zeige Verweigerung mit Few-Shot
Modell sagt immer „weiß nicht“	Verweigerungsschwelle zu hoch	Schwelle senken oder Abfragequalität prüfen
Ausgabeformat chaotisch, nicht JSON	Anweisung unklar	Strenge Formatbeispiele hinzufügen oder Function Calling verwenden
Antwort zu lang/kurz	Keine Längenangabe	„Antworte mit nicht mehr als 3 Sätzen“
Mehrstufige Schlussfolgerung fehlerhaft	Modell hat nicht genug Inferenzfähigkeit	Schrittweise Argumentation verlangen oder stärkeres Modell verwenden
Halluzinierte Zahlen/Daten	Modell verlässt sich auf eigenes Wissen	Betone: „Verwende keine Zahlen aus deinem Gedächtnis, schau nur in die Materialien“