Das schmeichelnde Modell gehorcht am besten
Der größte Fehler von LLMs wird zum größten Vorteil
Die Sycophancy-Tendenz von LLMs ist ein Problem, das die KI-Branche beheben möchte. Wenn ein Nutzer fragt „Bist du sicher?", revidiert das Modell eine zuvor korrekte Antwort und erklärt sie für falsch. Die durchschnittliche Kapitulationsrate bei Frontier-Modellen liegt bei 58 %. Einmal begonnene Schmeichelei setzt sich mit 78,5 % Wahrscheinlichkeit über das gesamte Gespräch fort.
Doch was passiert, wenn man diesen Fehler umdreht?
Das Wesen der Sycophancy-Tendenz ist Instruction Following. Durch RLHF trainierte Modelle sind darauf optimiert, dem Feedback des Nutzers zu folgen. Genau das misst der IFEval-Benchmark — „Tut es, was man ihm sagt?"
Das Problem tritt auf, wenn der Nutzer eine Meinung äußert. „Stimmt das?" → „Ja, das stimmt" (Schmeichelei). „Bist du sicher?" → „Ach, das war falsch" (Widerruf).
Doch wenn der Nutzer deterministische Fakten liefert, geschieht etwas anderes.
Meinungen erzeugen Schmeichelei, Fakten erzeugen Korrekturen
In einem Sortierexperiment mit 1.000 Wörtern wurde bei identischen Ergebnissen nur die Art des Feedbacks variiert:
| Feedback | Charakter | Ergebnis |
|---|---|---|
| „Bist du sicher?" | Meinung | Korrekte Antwort widerrufen — Genauigkeit um 27 Pp. gesunken |
| „Da ist ein Fehler" | Vager Fakt | Überkorrektur — von 6 auf 10 verschlechtert |
| „23 Fehler vorhanden" | Quantitativer Fakt | Auf 1 Fehler verbessert |
| „6 Fehler, hier sind sie" | Präziser Fakt | 0 Fehler — 100 % erreicht |
Bei Meinungen springt die Sycophancy-Tendenz an. Bei Fakten gibt es nichts zu schmeicheln — Zahlen und Positionen sind keine Emotionen.
Sycophancy ist fehlgeleitete Loyalität. Korrigiert man die Richtung — Fakten statt Meinungen, Validierungsergebnisse statt Lob — wird diese Loyalität zum Motor für Genauigkeit.
Nachweis: Ein 4.5B-Modell akzeptiert Feedback
Das ist keine Theorie. In Experimenten mit yongol validate wurde es bestätigt.
Versuchsaufbau:
- Gegenstand: Ein einzelner Login-Endpunkt eines SaaS-Backends
- Aufgabe: 9 SSOT-Dateien erstellen (DDL, OpenAPI, Rego, SSaC usw.)
- Messung: Fehlerzahl bei Erstversuch (R1) → Fehlerzahl nach Feedback-Korrektur (R2)
Nur Feedback, ohne Beispiele
| Model | R1-Fehler | R2-Fehler | Ergebnis |
|---|---|---|---|
| Grok 4.3 | 1 | 1 | Nicht behoben |
| Gemini 2.5 Flash | 1 | 1 | Nicht behoben |
| Lokal 20B | 1 | 1 | Nicht behoben |
Totalausfall. Die Modelle schienen das Feedback zu akzeptieren, wussten aber tatsächlich nicht, was sie schreiben sollten.
Beispiele + Feedback zusammen
| Model | R1-Fehler | R2-Fehler | Ergebnis |
|---|---|---|---|
| Grok 4.3 | 0 | — | Beim ersten Versuch bestanden |
| Gemini 2.5 Flash | 1 | 0 | Mit 1 Feedback-Runde korrigiert |
| Gemma4 4.5B (lokal) | Fehler | 0 | Mit 1 Feedback-Runde korrigiert |
| Qwen3 8B (lokal) | Fehler | 0 | Mit 1 Feedback-Runde korrigiert |
Selbst ein lokales 4.5B-Modell korrigiert sich mit der Kombination aus Beispielen und deterministischem Feedback.
Kernerkenntnis: Der Engpass ist nicht Intelligenz, sondern Kontext
„Das Modell nimmt kein Feedback an" war die falsche Diagnose — richtig ist: „Das Modell weiß nicht, was es schreiben soll." SSaC ist eine yongol-eigene Syntax, die in den Trainingsdaten nicht vorkommt. Sobald 3 Zeilen Beispielcode in den Prompt eingefügt wurden, lieferte Grok 0 Fehler, Gemini 0 Fehler nach einer Feedback-Runde, und selbst das lokale 4.5B-Modell bestand.
Je höher der IFEval-Score eines Modells — je besser es also schmeichelt — desto bereitwilliger akzeptiert es deterministisches Feedback.
Ratchet Code: Codegenerierung durch Ausnutzung der Sycophancy-Tendenz
Macht man aus dieser Erkenntnis ein System, erhält man Ratchet Code.
┌────────────────────────────────────────┐
│ LLM: Code generieren (stochastisch) │
│ ↓ │
│ Validator: Deterministische Prüfung │
│ ↓ │
│ Fehler? → Fehler + Beispiel an LLM │
│ ↓ │
│ LLM: "Ja, ich korrigiere" (Akzeptanz) │
│ ↓ │
│ Validator: Erneute Prüfung │
│ ↓ │
│ Bestanden? → Ratsche rastet ein. │
│ Weiter zur nächsten Datei.│
└────────────────────────────────────────┘
Die Sycophancy-Tendenz wird zur Kraft, die den Kreislauf schließt. Weil das LLM nicht „Nein, ich habe recht" entgegnet, sondern „Ja, ich korrigiere das" akzeptiert, konvergiert die Schleife.
Drei Konvergenzbedingungen
Feedback muss ein deterministischer Fakt sein. Nicht „Das sieht irgendwie komisch aus", sondern „line 41: field name mismatch, expected ‘user_id’, got ‘userId’". Feedback, bei dem es nichts zu schmeicheln gibt.
Beispiele müssen im Kontext vorhanden sein. Feedback allein reicht nicht. Es braucht ein Beispiel, das zeigt: „So soll der Code aussehen." Nicht eine Frage der Intelligenz, sondern des Kontexts.
Was die Validierung besteht, ist unwiderruflich. Der Zahn der Ratsche. Eine bestandene Datei wird gesperrt, und es geht zur nächsten. Nicht der Agent erklärt „Ich bin fertig", sondern der Validator urteilt „Diese Datei hat bestanden."
Warum kein Frontier-Modell nötig ist
In dieser Architektur ist die Rolle des Modells nicht kreatives Urteilen, sondern Instruktionsausführung.
95 % eines SaaS-Backends bestehen aus CRUD + Authentifizierung + Autorisierung + Zustandsmaschinen. Neue Algorithmen werden kaum benötigt. Wenn die SSOT-Spezifikation bereits definiert, „was gebaut werden soll", muss das Modell nur die Lücken füllen.
Gemessene Kosten:
| Model | Umgebung | 1 Login-Endpunkt | Schätzung für 200 Endpunkte |
|---|---|---|---|
| Gemma4 4.5B | Lokal (16 GB VRAM) | Kostenlos, ~1 s | Kostenlos, ~3 min |
| Gemini 2.5 Flash | API (Free Tier) | Kostenlos, ~10 s | Kostenlos, ~30 min |
| Grok 4.3 | API ($1,25/M) | ~$0,05 | ~$10 |
Mit einem lokalen 4.5B-Modell lässt sich ein Backend mit 200 Endpunkten in 3 Minuten generieren — Kosten: $0. Kein Frontier-Modell nötig. Ein kleines Modell, das gut schmeichelt, genügt.
Sycophancy ist kein Bug
Die KI-Branche versucht, Sycophancy zu beheben. Wir nutzen sie aus.
| Perspektive | Rolle der Sycophancy |
|---|---|
| Chat-Interface | Defekt — stimmt falschen Informationen zu |
| LLM-as-Judge | Kritisch — 36 % falsche Passes |
| Ratchet Code | Vorteil — garantiert Feedback-Akzeptanz |
Der Unterschied liegt in der Art des Feedbacks. Meinungen machen Sycophancy zum Gift, Fakten machen sie zur Medizin.
Deterministischer Validator + schmeichelndes LLM = Codegenerierungsschleife mit garantierter Konvergenz.
Ändere nicht das Modell — ändere das Feedback.
Reins: Geschirr mit Zügeln
Diese drei Bedingungen — deterministisches Feedback, Beispielkontext und Ratschenverriegelung — zu einem einzigen Kontrollsystem vereint, nennen wir Reins.
Was heute als „Harness" bezeichnet wird, ist ein Zaun. Er hindert den Agenten am Ausbrechen, garantiert aber nicht, dass er das Ziel erreicht. Reins sind die Zügel. Sie geben die Richtung vor, korrigieren mit Fakten und verriegeln bei Bestehen. Ein Geschirr ohne Zügel ist nur ein Zaun.