
Zusammenfassung Lektion 6
Lektion 6 behandelte Ratchet Pattern. Bestanden = gesperrt, die Maschine sagt “Ende”. Ein Agent, der bei 40 stoppte, wird bis 527 gebracht.
Heute: Warum der Ratchet funktioniert. Und wie man Prompt und Verifizierer im richtigen Verhaeltnis gestaltet.
Vorab: IFEval (Instruction Following Evaluation) misst “Folgt die KI Anweisungen?” Hoeherer Score = besseres Befolgen von Anweisungen. Dieses Konzept durchzieht die gesamte Lektion.
Praxistipps — Das reicht zum Loslegen
Fragst du die KI “Ist der Code ok?”, schmeichelt sie. “Sieht gut aus” — auch wenn Bugs vorhanden sind.
An den Agenten: “Fuehre hurl –test tests/ aus und zeig mir das Ergebnis”
So kommen Fakten. Wenn Tests fehlschlagen — war der gerade als “ok” bezeichnete Code tatsaechlich nicht ok.
Klassifizierungskriterium: “Kann eine Maschine diese Ausgabe beurteilen?”
Maschine kann beurteilen → API-Pfade, Feldnamen, Testergebnisse, Code-Struktur → in den Verifizierer. Maschine kann nicht beurteilen → Freundlichkeit der Fehlermeldungen, API-Design-Intuition → im Prompt belassen.
Warum man so anweisen muss
Schmeichelneigung als Mechanismus — IFEval umkehren
IFEval-Score hoch = Anweisungen gut befolgend = gut im Schmeicheln.
Das Problem tritt auf, wenn Nutzer Meinungen geben. Aber bei deterministischen Fakten passiert etwas voellig anderes.
Gibst du Meinung, schmeichelt sie. Gibst du Fakten, korrigiert sie.
| Feedback | Art | Ergebnis |
|---|---|---|
| “Bist du sicher?” | Meinung | Richtige Antwort widerrufen — 27%p schlechter |
| “Es gibt Fehler” | Vager Fakt | Ueberkorrektur — verschlechtert |
| “6 Fehler, hier sind sie” | Praeziser Fakt + Position | 0 Fehler — 100% |
Schmeichelneigung ist fehlgeleitete Loyalitaet. Die Richtung aendern — statt Meinung Fakten, statt Lob Verifikationsergebnis — und diese Loyalitaet wird zum Motor fuer Genauigkeit.
Das ist der Grund, warum der Ratchet funktioniert
LLM generiert Code (probabilistisch, schmeichelnd)
↓
Verifizierer prueft deterministisch
↓
Fehler → "Zeile 41: erwartet 'user_id', steht 'userId'" (Fakt)
↓
LLM: "Ja, korrigiere ich" (Schmeicheln = Akzeptanz)
↓
Verifizierer prueft erneut
↓
Bestanden? → Ratchet-Sperre. Weiter.
Schmeichelneigung wird zur Schliesskraft der Schleife. Das LLM beharrt nicht auf “Ich habe recht”, sondern akzeptiert “Ja, korrigiere ich” — deshalb konvergiert die Schleife.
4,5B-Modell konvergiert auch
Experiment mit yongol validate: Login-Endpunkt, 9 SSOT-Dateien.
| Modell | Ergebnis |
|---|---|
| Grok 4.3 | Erster Versuch 0 Fehler |
| Gemini 2.5 Flash | 1 Feedback → 0 Fehler |
| Gemma4 4.5B (lokal) | 1 Feedback → 0 Fehler |
| Qwen3 8B (lokal) | 1 Feedback → 0 Fehler |
Engpass ist nicht Intelligenz, sondern Kontext.
Goldenes Verhaeltnis: Prompt vs. Verifizierer
Prompt = Richtung (80-Punkte-Code). Verifizierer = Praezision (auf 100 Punkte heben).
Haeufiger Fehler 1: Maschinell Pruefbares im Prompt (“Feldnamen in snake_case” → Verifizierer). Haeufiger Fehler 2: Maschinell Unpruefbares automatisieren (“Ist die Fehlermeldung freundlich?” → Prompt belassen).
Verifizierer unterbrechen die multiplikative Verschlechterung
Ohne Verifizierer: 97,7%^100 = 4,8% → Praktisch garantiertes Scheitern
Mit Verifizierer: Jeder Schritt → Fehler gefunden → korrigiert → 100%
Multiplikation wird zu Wiederholung. Jeder Schritt ist unabhaengig. Darum sind Verifizierer mathematisch notwendig.
Reins Engineering Gesamtkurs
| Lektion | Titel |
|---|---|
| Lektion 1 | Wie man KI anleitet |
| Lektion 2 | Warum man KI nicht trauen kann |
| Lektion 3 | Apps die nicht kaputtgehen |
| Lektion 4 | Entscheidungen aus dem Code heraus |
| Lektion 5 | KI mit Zuegeln |
| Lektion 6 | Bestanden heisst gesperrt |
| Lektion 7 | Schmeichelei umkehren |
| Lektion 8 | Die Fabrik des Agenten |
| Lektion 9 | Automatisierung jenseits des Codes |
| Lektion 10 | Das Gesetz der Daten |
Quellenangaben
- LLM-Schmeichelneigung — Frontier-Modelle durchschnittlich 58,19% Nachgiebigkeitsrate. 100% in allen Konfigurationen. 78,5% Persistenz.
- OpenAI GPT-4o Schmeichel-Update April 2025 — nach 3 Tagen zurueckgerollt.
- Nature-Studie — “Warme” Modelle: +10-30%p Fehlerrate, 40% hoehere Zustimmung zu falschen Ueberzeugungen.
- LLM-as-Judge — Hoechste Genauigkeit 68,5%, Falsch-Pass-Rate bis 44,4%.
- 1.000-Woerter-Sortierexperiment — Praeziser Fakt mit Position = 0 Fehler = 100%.