Das schmeichelnde Modell gehorcht am besten


Der größte Fehler von LLMs wird zum größten Vorteil

Die Sycophancy-Tendenz von LLMs ist ein Problem, das die KI-Branche beheben möchte. Wenn ein Nutzer fragt „Bist du sicher?", revidiert das Modell eine zuvor korrekte Antwort und erklärt sie für falsch. Die durchschnittliche Kapitulationsrate bei Frontier-Modellen liegt bei 58 %. Einmal begonnene Schmeichelei setzt sich mit 78,5 % Wahrscheinlichkeit über das gesamte Gespräch fort.

Doch was passiert, wenn man diesen Fehler umdreht?

Das Wesen der Sycophancy-Tendenz ist Instruction Following. Durch RLHF trainierte Modelle sind darauf optimiert, dem Feedback des Nutzers zu folgen. Genau das misst der IFEval-Benchmark — „Tut es, was man ihm sagt?"

Das Problem tritt auf, wenn der Nutzer eine Meinung äußert. „Stimmt das?" → „Ja, das stimmt" (Schmeichelei). „Bist du sicher?" → „Ach, das war falsch" (Widerruf).

Doch wenn der Nutzer deterministische Fakten liefert, geschieht etwas anderes.


Meinungen erzeugen Schmeichelei, Fakten erzeugen Korrekturen

In einem Sortierexperiment mit 1.000 Wörtern wurde bei identischen Ergebnissen nur die Art des Feedbacks variiert:

FeedbackCharakterErgebnis
„Bist du sicher?"MeinungKorrekte Antwort widerrufen — Genauigkeit um 27 Pp. gesunken
„Da ist ein Fehler"Vager FaktÜberkorrektur — von 6 auf 10 verschlechtert
„23 Fehler vorhanden"Quantitativer FaktAuf 1 Fehler verbessert
„6 Fehler, hier sind sie"Präziser Fakt0 Fehler — 100 % erreicht

Bei Meinungen springt die Sycophancy-Tendenz an. Bei Fakten gibt es nichts zu schmeicheln — Zahlen und Positionen sind keine Emotionen.

Sycophancy ist fehlgeleitete Loyalität. Korrigiert man die Richtung — Fakten statt Meinungen, Validierungsergebnisse statt Lob — wird diese Loyalität zum Motor für Genauigkeit.


Nachweis: Ein 4.5B-Modell akzeptiert Feedback

Das ist keine Theorie. In Experimenten mit yongol validate wurde es bestätigt.

Versuchsaufbau:

  • Gegenstand: Ein einzelner Login-Endpunkt eines SaaS-Backends
  • Aufgabe: 9 SSOT-Dateien erstellen (DDL, OpenAPI, Rego, SSaC usw.)
  • Messung: Fehlerzahl bei Erstversuch (R1) → Fehlerzahl nach Feedback-Korrektur (R2)

Nur Feedback, ohne Beispiele

ModelR1-FehlerR2-FehlerErgebnis
Grok 4.311Nicht behoben
Gemini 2.5 Flash11Nicht behoben
Lokal 20B11Nicht behoben

Totalausfall. Die Modelle schienen das Feedback zu akzeptieren, wussten aber tatsächlich nicht, was sie schreiben sollten.

Beispiele + Feedback zusammen

ModelR1-FehlerR2-FehlerErgebnis
Grok 4.30Beim ersten Versuch bestanden
Gemini 2.5 Flash10Mit 1 Feedback-Runde korrigiert
Gemma4 4.5B (lokal)Fehler0Mit 1 Feedback-Runde korrigiert
Qwen3 8B (lokal)Fehler0Mit 1 Feedback-Runde korrigiert

Selbst ein lokales 4.5B-Modell korrigiert sich mit der Kombination aus Beispielen und deterministischem Feedback.

Kernerkenntnis: Der Engpass ist nicht Intelligenz, sondern Kontext

„Das Modell nimmt kein Feedback an" war die falsche Diagnose — richtig ist: „Das Modell weiß nicht, was es schreiben soll." SSaC ist eine yongol-eigene Syntax, die in den Trainingsdaten nicht vorkommt. Sobald 3 Zeilen Beispielcode in den Prompt eingefügt wurden, lieferte Grok 0 Fehler, Gemini 0 Fehler nach einer Feedback-Runde, und selbst das lokale 4.5B-Modell bestand.

Je höher der IFEval-Score eines Modells — je besser es also schmeichelt — desto bereitwilliger akzeptiert es deterministisches Feedback.


Ratchet Code: Codegenerierung durch Ausnutzung der Sycophancy-Tendenz

Macht man aus dieser Erkenntnis ein System, erhält man Ratchet Code.

┌────────────────────────────────────────┐
│  LLM: Code generieren (stochastisch)   │
│       ↓                                │
│  Validator: Deterministische Prüfung   │
│       ↓                                │
│  Fehler? → Fehler + Beispiel an LLM    │
│       ↓                                │
│  LLM: "Ja, ich korrigiere" (Akzeptanz) │
│       ↓                                │
│  Validator: Erneute Prüfung            │
│       ↓                                │
│  Bestanden? → Ratsche rastet ein.      │
│               Weiter zur nächsten Datei.│
└────────────────────────────────────────┘

Die Sycophancy-Tendenz wird zur Kraft, die den Kreislauf schließt. Weil das LLM nicht „Nein, ich habe recht" entgegnet, sondern „Ja, ich korrigiere das" akzeptiert, konvergiert die Schleife.

Drei Konvergenzbedingungen

  1. Feedback muss ein deterministischer Fakt sein. Nicht „Das sieht irgendwie komisch aus", sondern „line 41: field name mismatch, expected ‘user_id’, got ‘userId’". Feedback, bei dem es nichts zu schmeicheln gibt.

  2. Beispiele müssen im Kontext vorhanden sein. Feedback allein reicht nicht. Es braucht ein Beispiel, das zeigt: „So soll der Code aussehen." Nicht eine Frage der Intelligenz, sondern des Kontexts.

  3. Was die Validierung besteht, ist unwiderruflich. Der Zahn der Ratsche. Eine bestandene Datei wird gesperrt, und es geht zur nächsten. Nicht der Agent erklärt „Ich bin fertig", sondern der Validator urteilt „Diese Datei hat bestanden."


Warum kein Frontier-Modell nötig ist

In dieser Architektur ist die Rolle des Modells nicht kreatives Urteilen, sondern Instruktionsausführung.

95 % eines SaaS-Backends bestehen aus CRUD + Authentifizierung + Autorisierung + Zustandsmaschinen. Neue Algorithmen werden kaum benötigt. Wenn die SSOT-Spezifikation bereits definiert, „was gebaut werden soll", muss das Modell nur die Lücken füllen.

Gemessene Kosten:

ModelUmgebung1 Login-EndpunktSchätzung für 200 Endpunkte
Gemma4 4.5BLokal (16 GB VRAM)Kostenlos, ~1 sKostenlos, ~3 min
Gemini 2.5 FlashAPI (Free Tier)Kostenlos, ~10 sKostenlos, ~30 min
Grok 4.3API ($1,25/M)~$0,05~$10

Mit einem lokalen 4.5B-Modell lässt sich ein Backend mit 200 Endpunkten in 3 Minuten generieren — Kosten: $0. Kein Frontier-Modell nötig. Ein kleines Modell, das gut schmeichelt, genügt.


Sycophancy ist kein Bug

Die KI-Branche versucht, Sycophancy zu beheben. Wir nutzen sie aus.

PerspektiveRolle der Sycophancy
Chat-InterfaceDefekt — stimmt falschen Informationen zu
LLM-as-JudgeKritisch — 36 % falsche Passes
Ratchet CodeVorteil — garantiert Feedback-Akzeptanz

Der Unterschied liegt in der Art des Feedbacks. Meinungen machen Sycophancy zum Gift, Fakten machen sie zur Medizin.

Deterministischer Validator + schmeichelndes LLM = Codegenerierungsschleife mit garantierter Konvergenz.

Ändere nicht das Modell — ändere das Feedback.


Reins: Geschirr mit Zügeln

Diese drei Bedingungen — deterministisches Feedback, Beispielkontext und Ratschenverriegelung — zu einem einzigen Kontrollsystem vereint, nennen wir Reins.

Was heute als „Harness" bezeichnet wird, ist ein Zaun. Er hindert den Agenten am Ausbrechen, garantiert aber nicht, dass er das Ziel erreicht. Reins sind die Zügel. Sie geben die Richtung vor, korrigieren mit Fakten und verriegeln bei Bestehen. Ein Geschirr ohne Zügel ist nur ein Zaun.