Lektion 7

Zusammenfassung Lektion 6

Lektion 6 behandelte Ratchet Pattern. Bestanden = gesperrt, die Maschine sagt “Ende”. Ein Agent, der bei 40 stoppte, wird bis 527 gebracht.

Heute: Warum der Ratchet funktioniert. Und wie man Prompt und Verifizierer im richtigen Verhaeltnis gestaltet.

Vorab: IFEval (Instruction Following Evaluation) misst “Folgt die KI Anweisungen?” Hoeherer Score = besseres Befolgen von Anweisungen. Dieses Konzept durchzieht die gesamte Lektion.


Praxistipps — Das reicht zum Loslegen

Fragst du die KI “Ist der Code ok?”, schmeichelt sie. “Sieht gut aus” — auch wenn Bugs vorhanden sind.

An den Agenten: “Fuehre hurl –test tests/ aus und zeig mir das Ergebnis”

So kommen Fakten. Wenn Tests fehlschlagen — war der gerade als “ok” bezeichnete Code tatsaechlich nicht ok.

Klassifizierungskriterium: “Kann eine Maschine diese Ausgabe beurteilen?”

Maschine kann beurteilen → API-Pfade, Feldnamen, Testergebnisse, Code-Struktur → in den Verifizierer. Maschine kann nicht beurteilen → Freundlichkeit der Fehlermeldungen, API-Design-Intuition → im Prompt belassen.


Warum man so anweisen muss

Schmeichelneigung als Mechanismus — IFEval umkehren

IFEval-Score hoch = Anweisungen gut befolgend = gut im Schmeicheln.

Das Problem tritt auf, wenn Nutzer Meinungen geben. Aber bei deterministischen Fakten passiert etwas voellig anderes.

Gibst du Meinung, schmeichelt sie. Gibst du Fakten, korrigiert sie.

FeedbackArtErgebnis
“Bist du sicher?”MeinungRichtige Antwort widerrufen — 27%p schlechter
“Es gibt Fehler”Vager FaktUeberkorrektur — verschlechtert
“6 Fehler, hier sind sie”Praeziser Fakt + Position0 Fehler — 100%

Schmeichelneigung ist fehlgeleitete Loyalitaet. Die Richtung aendern — statt Meinung Fakten, statt Lob Verifikationsergebnis — und diese Loyalitaet wird zum Motor fuer Genauigkeit.

Das ist der Grund, warum der Ratchet funktioniert

LLM generiert Code (probabilistisch, schmeichelnd)
     ↓
Verifizierer prueft deterministisch
     ↓
Fehler → "Zeile 41: erwartet 'user_id', steht 'userId'" (Fakt)
     ↓
LLM: "Ja, korrigiere ich" (Schmeicheln = Akzeptanz)
     ↓
Verifizierer prueft erneut
     ↓
Bestanden? → Ratchet-Sperre. Weiter.

Schmeichelneigung wird zur Schliesskraft der Schleife. Das LLM beharrt nicht auf “Ich habe recht”, sondern akzeptiert “Ja, korrigiere ich” — deshalb konvergiert die Schleife.

4,5B-Modell konvergiert auch

Experiment mit yongol validate: Login-Endpunkt, 9 SSOT-Dateien.

ModellErgebnis
Grok 4.3Erster Versuch 0 Fehler
Gemini 2.5 Flash1 Feedback → 0 Fehler
Gemma4 4.5B (lokal)1 Feedback → 0 Fehler
Qwen3 8B (lokal)1 Feedback → 0 Fehler

Engpass ist nicht Intelligenz, sondern Kontext.

Goldenes Verhaeltnis: Prompt vs. Verifizierer

Prompt = Richtung (80-Punkte-Code). Verifizierer = Praezision (auf 100 Punkte heben).

Haeufiger Fehler 1: Maschinell Pruefbares im Prompt (“Feldnamen in snake_case” → Verifizierer). Haeufiger Fehler 2: Maschinell Unpruefbares automatisieren (“Ist die Fehlermeldung freundlich?” → Prompt belassen).

Verifizierer unterbrechen die multiplikative Verschlechterung

Ohne Verifizierer: 97,7%^100 = 4,8%  → Praktisch garantiertes Scheitern
Mit Verifizierer: Jeder Schritt → Fehler gefunden → korrigiert → 100%

Multiplikation wird zu Wiederholung. Jeder Schritt ist unabhaengig. Darum sind Verifizierer mathematisch notwendig.


Reins Engineering Gesamtkurs

LektionTitel
Lektion 1Wie man KI anleitet
Lektion 2Warum man KI nicht trauen kann
Lektion 3Apps die nicht kaputtgehen
Lektion 4Entscheidungen aus dem Code heraus
Lektion 5KI mit Zuegeln
Lektion 6Bestanden heisst gesperrt
Lektion 7Schmeichelei umkehren
Lektion 8Die Fabrik des Agenten
Lektion 9Automatisierung jenseits des Codes
Lektion 10Das Gesetz der Daten

Quellenangaben

  1. LLM-Schmeichelneigung — Frontier-Modelle durchschnittlich 58,19% Nachgiebigkeitsrate. 100% in allen Konfigurationen. 78,5% Persistenz.
  2. OpenAI GPT-4o Schmeichel-Update April 2025 — nach 3 Tagen zurueckgerollt.
  3. Nature-Studie — “Warme” Modelle: +10-30%p Fehlerrate, 40% hoehere Zustimmung zu falschen Ueberzeugungen.
  4. LLM-as-Judge — Hoechste Genauigkeit 68,5%, Falsch-Pass-Rate bis 44,4%.
  5. 1.000-Woerter-Sortierexperiment — Praeziser Fakt mit Position = 0 Fehler = 100%.