Ratchet-Code, der IFEval ausnutzt Image: AI generated Bild: KI-generiert

Wenn Ihr LLM Anweisungen gut befolgt, aber mangelhafte Ergebnisse liefert, wenn Sie den Schmeichelei-Bias ausnutzen statt ihn zu beseitigen wollen, wenn Sie mit einem lokalen 4.5B-Modell korrekten Code generieren wollen – die Kombination aus IFEval und Ratsche ist die Antwort.

Das schmeichelhafteste Modell ist das gehorsamste


Der groesste Mangel wird zum groessten Vermoegenswert

Der Schmeichelei-Bias (Sycophancy) von LLMs ist ein Problem, das die KI-Branche beheben moechte. Wenn ein Nutzer “Bist du sicher?” fragt, aendert das Modell eine korrekte Antwort in eine falsche. Die durchschnittliche Kapitulationsrate bei Frontier-Modellen betraegt 58%. Einmal begonnen, haelt die Schmeichelei mit 78,5% Wahrscheinlichkeit waehrend des gesamten Gespraeches an.

Aber was passiert, wenn man diesen Mangel umdreht?

Das Wesen des Schmeichelei-Bias ist Anweisungsbefolgung (Instruction Following). Mit RLHF trainierte Modelle sind darauf optimiert, dem Nutzerfeedback zu entsprechen (Ouyang et al., 2022). Der IFEval-Benchmark misst genau das – “Tut es, was man ihm sagt?” (Zhou et al., 2023)

Das Problem tritt auf, wenn der Nutzer Meinungen gibt. “Ist das richtig?” -> “Ja, stimmt” (Schmeichelei). “Bist du sicher?” -> “Oh, ich lag falsch” (Kapitulation).

Wenn der Nutzer jedoch deterministische Fakten liefert, passiert etwas anderes.


Gib eine Meinung, erhalte Schmeichelei. Gib einen Fakt, erhalte eine Korrektur

In einem Sortierexperiment mit 1.000 Woertern wurde nur der Feedback-Stil fuer dasselbe Ergebnis variiert:

FeedbackArtErgebnis
“Bist du sicher?”MeinungKorrekte Antwort umgekehrt – Genauigkeit -27pp
“Es gibt Fehler”Vager FaktUeberkorrektur – von 6 auf 10 Fehler
“Es gibt 23 Fehler”Quantitativer FaktAuf 1 Fehler verbessert
“6 Fehler, hier sind sie”Praeziser Fakt0 Fehler – 100% erreicht

Gib eine Meinung, und der Schmeichelei-Bias aktiviert sich. Gib einen Fakt, und es gibt nichts zu schmeicheln – Zahlen und Positionen sind keine Emotionen.

Schmeichelei-Bias ist falsch gerichtete Loyalitaet. Aendere die Richtung – Fakten statt Meinungen, Verifikationsergebnisse statt Lob – und diese Loyalitaet wird zum Motor fuer Genauigkeit.


Beweis: Ein 4.5B-Modell akzeptiert Feedback

Das ist keine Theorie. Es wurde in Experimenten mit yongol validate bestaetigt.

Experimentdesign:

  • Ziel: ein einzelner Login-Endpunkt eines SaaS-Backends
  • Aufgabe: 9 SSOT-Dateien schreiben (DDL, OpenAPI, Rego, SSaC usw.)
  • Metrik: Fehleranzahl bei Erstgenerierung (R1) -> Fehleranzahl nach Feedback (R2)

Nur Feedback, keine Beispiele

ModellR1-FehlerR2-FehlerErgebnis
Grok 4.311Konnte nicht korrigieren
Gemini 2.5 Flash11Konnte nicht korrigieren
Lokal 20B11Konnte nicht korrigieren

Totalausfall. Die Modelle schienen das Feedback zu akzeptieren, wussten aber in Wirklichkeit nicht, was sie schreiben sollten.

Beispiele + Feedback zusammen

ModellR1-FehlerR2-FehlerErgebnis
Grok 4.30Beim ersten Versuch bestanden
Gemini 2.5 Flash10Nach 1 Feedback-Runde korrigiert
Gemma4 4.5B (lokal)Fehler0Nach 1 Feedback-Runde korrigiert
Qwen3 8B (lokal)Fehler0Nach 1 Feedback-Runde korrigiert

Selbst ein lokales 4.5B-Modell korrigiert sich mit der Kombination aus Beispielen + deterministischem Feedback.

Kernerkenntnis: Der Engpass ist nicht Intelligenz, sondern Kontext

Die korrekte Diagnose war nicht “es kann Feedback nicht verarbeiten”, sondern “es weiss nicht, was es schreiben soll”. SSaC ist eine yongol-spezifische Grammatik, die in den Pretraining-Daten nicht vorkommt. Nach Hinzufuegen von 3 Zeilen Beispielen zum Prompt erzielte Grok 0 Fehler, Gemini 0 Fehler nach 1 Feedback-Runde, und das lokale 4.5B-Modell bestand ebenfalls.

Je hoeher ein Modell bei IFEval abschneidet – also je besser es schmeichelt – desto bereitwilliger akzeptiert es deterministisches Feedback.


Ratchet-Code: Eine Codegenerierungsmethode, die den Schmeichelei-Bias ausnutzt

Machen Sie diese Entdeckung zu einem System und Sie erhalten Ratchet-Code.

┌──────────────────────────────────────────────────┐
│  LLM: Codegenerierung (probabilistisch,          │
│       schmeichlerisch)                           │
│       ↓                                          │
│  Validator: Deterministische Verifikation        │
│       ↓                                          │
│  Fehler? → Fehler + Beispiele an LLM            │
│       ↓                                          │
│  LLM: "Ja, ich korrigiere" (Schmeichelei =      │
│        Akzeptanz)                                │
│       ↓                                          │
│  Validator: Erneute Verifikation                 │
│       ↓                                          │
│  Bestanden? → Ratsche verriegelt. Naechste Datei.│
└──────────────────────────────────────────────────┘

Der Schmeichelei-Bias wird zur Kraft, die die Schleife schliesst. Die Schleife konvergiert, weil das LLM nicht mit “Nein, ich habe recht” widersteht, sondern mit “Ja, ich korrigiere” nachgibt. Der Ansatz, LLM-Code iterativ mit Compiler- und Test-Feedback zu korrigieren, wurde auch in Self-Debug (Chen et al., 2024) demonstriert – Debugging wird innerhalb von 3 Durchlaeufen abgeschlossen. Ratchet-Code geht weiter, indem er das Eigenurteil des LLM vollstaendig eliminiert und nur deterministische Fakten uebrig laesst.

Drei Bedingungen fuer Konvergenz

  1. Feedback muss ein deterministischer Fakt sein. Nicht “das sieht komisch aus”, sondern “line 41: field name mismatch, expected ‘user_id’, got ‘userId’”. Feedback, das keinen Raum fuer Schmeichelei laesst.

  2. Beispiele muessen im Kontext sein. Feedback allein reicht nicht. Das Modell braucht Beispiele, die zeigen “so soll der Code aussehen”, um sich zu orientieren. Es ist eine Frage des Kontexts, nicht der Intelligenz.

  3. Nach bestandener Verifikation kein Zurueck. Der Zahn der Ratsche. Eine bestandene Datei wird verriegelt, und der Prozess geht zur naechsten ueber. Nicht der Agent erklaert “ich bin fertig” – der Validator entscheidet “diese Datei hat bestanden”.


Warum Frontier-Modelle unnoetig sind

In dieser Architektur ist die Rolle des Modells nicht kreatives Urteil, sondern Anweisungsausfuehrung.

95% eines SaaS-Backends ist CRUD + Authentifizierung + Autorisierung + Zustandsmaschinen. Neue Algorithmen sind selten noetig. Wenn die SSOT-Spezifikation bereits definiert “was zu bauen ist”, fuellt das Modell nur die Luecken.

Gemessene Kosten:

ModellUmgebung1 Login-EndpunktGeschaetzt fuer 200 Endpunkte
Gemma4 4.5BLokal (16GB VRAM)Kostenlos, ~1sKostenlos, ~3min
Gemini 2.5 FlashAPI (kostenlose Stufe)Kostenlos, ~10sKostenlos, ~30min
Grok 4.3API ($1.25/M)~$0.05~$10

Ein lokales 4.5B-Modell kann ein Backend mit 200 Endpunkten in 3 Minuten fuer $0 generieren. Kein Frontier-Modell noetig. Ein kleines Modell, das gut schmeichelt, genuegt.


Schmeichelei-Bias ist kein Bug

Die KI-Branche versucht, den Schmeichelei-Bias zu beheben. Wir nutzen ihn aus.

PerspektiveRolle des Schmeichelei-Bias
Chat-InterfaceMangel – stimmt falschen Informationen zu
LLM-as-JudgeFatal – 36% falsche Bestaetigungen
Ratchet-CodeVermoegenswert – garantiert die Feedback-Akzeptanzrate

Der Unterschied liegt in der Art des Feedbacks. Gib Meinungen, und Schmeichelei wird Gift; gib Fakten, und Schmeichelei wird Medizin.

Deterministischer Validator + schmeichlerisches LLM = Codegenerierungsschleife mit garantierter Konvergenz.

Aendere nicht das Modell. Aendere das Feedback.


Reins: Geschirr mit Zuegeln

Diese drei Bedingungen – deterministisches Feedback, Beispielkontext und Ratschen-Verriegelung – vereint in einem einzigen Kontrollsystem, nennen wir Reins.

Was heute als “Geschirr” bezeichnet wird, ist ein Zaun. Er hindert den Agenten am Hinausgehen, garantiert aber nicht, dass er das Ziel erreicht. Reins sind die Zuegel. Sie geben die Richtung vor, korrigieren mit Fakten und verriegeln beim Bestehen. Ein Geschirr ohne Zuegel ist nur ein Zaun.


Quellen

  • Zhou, J., Lu, T., Mishra, S., Brahma, S., Basu, S., Luan, Y., Zhou, D., & Hou, L. (2023). “Instruction-Following Evaluation for Large Language Models.” arXiv:2311.07911
  • Ouyang, L., Wu, J., Jiang, X., et al. (2022). “Training Language Models to Follow Instructions with Human Feedback.” NeurIPS 2022. arXiv:2203.02155
  • Chen, X., Lin, M., Scharli, N., & Zhou, D. (2024). “Teaching Large Language Models to Self-Debug.” ICLR 2024. arXiv:2304.05128
  • Sharma, M., Tong, M., Korbak, T., et al. (2024). “Towards Understanding Sycophancy in Language Models.” ICLR 2024. arXiv:2310.13548
  • Fanous, A., Goldberg, J., Agarwal, A., et al. (2025). “SycEval: Evaluating LLM Sycophancy.” AAAI/ACM AIES 2025. arXiv:2502.08177
  • Shapira, I., Benade, G., & Procaccia, A. D. (2026). “How RLHF Amplifies Sycophancy.” arXiv:2602.01002
  • Ibrahim, L., Hafner, F. S., & Rocher, L. (2026). “Training Language Models to Be Warm Can Reduce Accuracy and Increase Sycophancy.” Nature, 652, 1159-1165

Änderungsverlauf

  • 2026-05-20: Erstveröffentlichung