Lektion 7. Schmeichelei umkehren — Balance zwischen Prompts und Verifikatoren

Lektion 7 Image: AI generated

Zusammenfassung Lektion 6

Lektion 6 behandelte Ratchet Pattern. Bestanden = gesperrt, die Maschine sagt “Ende”. Ein Agent, der bei 40 stoppte, wird bis 527 gebracht.

Heute: Warum der Ratchet funktioniert. Und wie man Prompt und Verifizierer im richtigen Verhaeltnis gestaltet.

Vorab: IFEval (Instruction Following Evaluation) misst “Folgt die KI Anweisungen?” Hoeherer Score = besseres Befolgen von Anweisungen. Dieses Konzept durchzieht die gesamte Lektion.

Praxistipps — Das reicht zum Loslegen

Fragst du die KI “Ist der Code ok?”, schmeichelt sie. “Sieht gut aus” — auch wenn Bugs vorhanden sind.

An den Agenten: “Fuehre hurl –test tests/ aus und zeig mir das Ergebnis”

So kommen Fakten. Wenn Tests fehlschlagen — war der gerade als “ok” bezeichnete Code tatsaechlich nicht ok.

Klassifizierungskriterium: “Kann eine Maschine diese Ausgabe beurteilen?”

Maschine kann beurteilen → API-Pfade, Feldnamen, Testergebnisse, Code-Struktur → in den Verifizierer. Maschine kann nicht beurteilen → Freundlichkeit der Fehlermeldungen, API-Design-Intuition → im Prompt belassen.

Warum man so anweisen muss

Schmeichelneigung als Mechanismus — IFEval umkehren

IFEval-Score hoch = Anweisungen gut befolgend = gut im Schmeicheln.

Das Problem tritt auf, wenn Nutzer Meinungen geben. Aber bei deterministischen Fakten passiert etwas voellig anderes.

Gibst du Meinung, schmeichelt sie. Gibst du Fakten, korrigiert sie.

Feedback	Art	Ergebnis
“Bist du sicher?”	Meinung	Richtige Antwort widerrufen — 27%p schlechter
“Es gibt Fehler”	Vager Fakt	Ueberkorrektur — verschlechtert
“6 Fehler, hier sind sie”	Praeziser Fakt + Position	0 Fehler — 100%

Schmeichelneigung ist fehlgeleitete Loyalitaet. Die Richtung aendern — statt Meinung Fakten, statt Lob Verifikationsergebnis — und diese Loyalitaet wird zum Motor fuer Genauigkeit.

Das ist der Grund, warum der Ratchet funktioniert

LLM generiert Code (probabilistisch, schmeichelnd)
     ↓
Verifizierer prueft deterministisch
     ↓
Fehler → "Zeile 41: erwartet 'user_id', steht 'userId'" (Fakt)
     ↓
LLM: "Ja, korrigiere ich" (Schmeicheln = Akzeptanz)
     ↓
Verifizierer prueft erneut
     ↓
Bestanden? → Ratchet-Sperre. Weiter.

Schmeichelneigung wird zur Schliesskraft der Schleife. Das LLM beharrt nicht auf “Ich habe recht”, sondern akzeptiert “Ja, korrigiere ich” — deshalb konvergiert die Schleife.

4,5B-Modell konvergiert auch

Experiment mit yongol validate: Login-Endpunkt, 9 SSOT-Dateien.

Modell	Ergebnis
Grok 4.3	Erster Versuch 0 Fehler
Gemini 2.5 Flash	1 Feedback → 0 Fehler
Gemma4 4.5B (lokal)	1 Feedback → 0 Fehler
Qwen3 8B (lokal)	1 Feedback → 0 Fehler

Engpass ist nicht Intelligenz, sondern Kontext.

Goldenes Verhaeltnis: Prompt vs. Verifizierer

Prompt = Richtung (80-Punkte-Code). Verifizierer = Praezision (auf 100 Punkte heben).

Haeufiger Fehler 1: Maschinell Pruefbares im Prompt (“Feldnamen in snake_case” → Verifizierer). Haeufiger Fehler 2: Maschinell Unpruefbares automatisieren (“Ist die Fehlermeldung freundlich?” → Prompt belassen).

Verifizierer unterbrechen die multiplikative Verschlechterung

Ohne Verifizierer: 97,7%^100 = 4,8%  → Praktisch garantiertes Scheitern
Mit Verifizierer: Jeder Schritt → Fehler gefunden → korrigiert → 100%

Multiplikation wird zu Wiederholung. Jeder Schritt ist unabhaengig. Darum sind Verifizierer mathematisch notwendig.

Reins Engineering Gesamtkurs

Lektion	Titel
Lektion 0	Claude Code installieren
Lektion 1	Wie man KI anleitet
Lektion 2	Warum man KI nicht trauen kann
Lektion 3	Apps die nicht kaputtgehen
Lektion 4	Entscheidungen aus dem Code heraus
Lektion 5	KI mit Zuegeln
Lektion 6	Bestanden heisst gesperrt
Lektion 7	Schmeichelei umkehren
Lektion 8	Die Fabrik des Agenten
Lektion 9	Automatisierung jenseits des Codes
Lektion 10	Das Gesetz der Daten
Lektion 11	Gescheitertes Vibe Coding retten

Quellenangaben

LLM-Schmeichelneigung — Frontier-Modelle durchschnittlich 58,19% Nachgiebigkeitsrate. 100% in allen Konfigurationen. 78,5% Persistenz.
OpenAI GPT-4o Schmeichel-Update April 2025 — nach 3 Tagen zurueckgerollt.
Nature-Studie — “Warme” Modelle: +10-30%p Fehlerrate, 40% hoehere Zustimmung zu falschen Ueberzeugungen.
LLM-as-Judge — Hoechste Genauigkeit 68,5%, Falsch-Pass-Rate bis 44,4%.
1.000-Woerter-Sortierexperiment — Praeziser Fakt mit Position = 0 Fehler = 100%.

Änderungsverlauf

2026-05-24: Erstveröffentlichung