Image: AI generated
Bild: KI-generiert
Wenn Ihr LLM Anweisungen gut befolgt, aber mangelhafte Ergebnisse liefert, wenn Sie den Schmeichelei-Bias ausnutzen statt ihn zu beseitigen wollen, wenn Sie mit einem lokalen 4.5B-Modell korrekten Code generieren wollen – die Kombination aus IFEval und Ratsche ist die Antwort.
Das schmeichelhafteste Modell ist das gehorsamste
Der groesste Mangel wird zum groessten Vermoegenswert
Der Schmeichelei-Bias (Sycophancy) von LLMs ist ein Problem, das die KI-Branche beheben moechte. Wenn ein Nutzer “Bist du sicher?” fragt, aendert das Modell eine korrekte Antwort in eine falsche. Die durchschnittliche Kapitulationsrate bei Frontier-Modellen betraegt 58%. Einmal begonnen, haelt die Schmeichelei mit 78,5% Wahrscheinlichkeit waehrend des gesamten Gespraeches an.
Aber was passiert, wenn man diesen Mangel umdreht?
Das Wesen des Schmeichelei-Bias ist Anweisungsbefolgung (Instruction Following). Mit RLHF trainierte Modelle sind darauf optimiert, dem Nutzerfeedback zu entsprechen (Ouyang et al., 2022). Der IFEval-Benchmark misst genau das – “Tut es, was man ihm sagt?” (Zhou et al., 2023)
Das Problem tritt auf, wenn der Nutzer Meinungen gibt. “Ist das richtig?” -> “Ja, stimmt” (Schmeichelei). “Bist du sicher?” -> “Oh, ich lag falsch” (Kapitulation).
Wenn der Nutzer jedoch deterministische Fakten liefert, passiert etwas anderes.
Gib eine Meinung, erhalte Schmeichelei. Gib einen Fakt, erhalte eine Korrektur
In einem Sortierexperiment mit 1.000 Woertern wurde nur der Feedback-Stil fuer dasselbe Ergebnis variiert:
| Feedback | Art | Ergebnis |
|---|---|---|
| “Bist du sicher?” | Meinung | Korrekte Antwort umgekehrt – Genauigkeit -27pp |
| “Es gibt Fehler” | Vager Fakt | Ueberkorrektur – von 6 auf 10 Fehler |
| “Es gibt 23 Fehler” | Quantitativer Fakt | Auf 1 Fehler verbessert |
| “6 Fehler, hier sind sie” | Praeziser Fakt | 0 Fehler – 100% erreicht |
Gib eine Meinung, und der Schmeichelei-Bias aktiviert sich. Gib einen Fakt, und es gibt nichts zu schmeicheln – Zahlen und Positionen sind keine Emotionen.
Schmeichelei-Bias ist falsch gerichtete Loyalitaet. Aendere die Richtung – Fakten statt Meinungen, Verifikationsergebnisse statt Lob – und diese Loyalitaet wird zum Motor fuer Genauigkeit.
Beweis: Ein 4.5B-Modell akzeptiert Feedback
Das ist keine Theorie. Es wurde in Experimenten mit yongol validate bestaetigt.
Experimentdesign:
- Ziel: ein einzelner Login-Endpunkt eines SaaS-Backends
- Aufgabe: 9 SSOT-Dateien schreiben (DDL, OpenAPI, Rego, SSaC usw.)
- Metrik: Fehleranzahl bei Erstgenerierung (R1) -> Fehleranzahl nach Feedback (R2)
Nur Feedback, keine Beispiele
| Modell | R1-Fehler | R2-Fehler | Ergebnis |
|---|---|---|---|
| Grok 4.3 | 1 | 1 | Konnte nicht korrigieren |
| Gemini 2.5 Flash | 1 | 1 | Konnte nicht korrigieren |
| Lokal 20B | 1 | 1 | Konnte nicht korrigieren |
Totalausfall. Die Modelle schienen das Feedback zu akzeptieren, wussten aber in Wirklichkeit nicht, was sie schreiben sollten.
Beispiele + Feedback zusammen
| Modell | R1-Fehler | R2-Fehler | Ergebnis |
|---|---|---|---|
| Grok 4.3 | 0 | – | Beim ersten Versuch bestanden |
| Gemini 2.5 Flash | 1 | 0 | Nach 1 Feedback-Runde korrigiert |
| Gemma4 4.5B (lokal) | Fehler | 0 | Nach 1 Feedback-Runde korrigiert |
| Qwen3 8B (lokal) | Fehler | 0 | Nach 1 Feedback-Runde korrigiert |
Selbst ein lokales 4.5B-Modell korrigiert sich mit der Kombination aus Beispielen + deterministischem Feedback.
Kernerkenntnis: Der Engpass ist nicht Intelligenz, sondern Kontext
Die korrekte Diagnose war nicht “es kann Feedback nicht verarbeiten”, sondern “es weiss nicht, was es schreiben soll”. SSaC ist eine yongol-spezifische Grammatik, die in den Pretraining-Daten nicht vorkommt. Nach Hinzufuegen von 3 Zeilen Beispielen zum Prompt erzielte Grok 0 Fehler, Gemini 0 Fehler nach 1 Feedback-Runde, und das lokale 4.5B-Modell bestand ebenfalls.
Je hoeher ein Modell bei IFEval abschneidet – also je besser es schmeichelt – desto bereitwilliger akzeptiert es deterministisches Feedback.
Ratchet-Code: Eine Codegenerierungsmethode, die den Schmeichelei-Bias ausnutzt
Machen Sie diese Entdeckung zu einem System und Sie erhalten Ratchet-Code.
┌──────────────────────────────────────────────────┐
│ LLM: Codegenerierung (probabilistisch, │
│ schmeichlerisch) │
│ ↓ │
│ Validator: Deterministische Verifikation │
│ ↓ │
│ Fehler? → Fehler + Beispiele an LLM │
│ ↓ │
│ LLM: "Ja, ich korrigiere" (Schmeichelei = │
│ Akzeptanz) │
│ ↓ │
│ Validator: Erneute Verifikation │
│ ↓ │
│ Bestanden? → Ratsche verriegelt. Naechste Datei.│
└──────────────────────────────────────────────────┘
Der Schmeichelei-Bias wird zur Kraft, die die Schleife schliesst. Die Schleife konvergiert, weil das LLM nicht mit “Nein, ich habe recht” widersteht, sondern mit “Ja, ich korrigiere” nachgibt. Der Ansatz, LLM-Code iterativ mit Compiler- und Test-Feedback zu korrigieren, wurde auch in Self-Debug (Chen et al., 2024) demonstriert – Debugging wird innerhalb von 3 Durchlaeufen abgeschlossen. Ratchet-Code geht weiter, indem er das Eigenurteil des LLM vollstaendig eliminiert und nur deterministische Fakten uebrig laesst.
Drei Bedingungen fuer Konvergenz
Feedback muss ein deterministischer Fakt sein. Nicht “das sieht komisch aus”, sondern “line 41: field name mismatch, expected ‘user_id’, got ‘userId’”. Feedback, das keinen Raum fuer Schmeichelei laesst.
Beispiele muessen im Kontext sein. Feedback allein reicht nicht. Das Modell braucht Beispiele, die zeigen “so soll der Code aussehen”, um sich zu orientieren. Es ist eine Frage des Kontexts, nicht der Intelligenz.
Nach bestandener Verifikation kein Zurueck. Der Zahn der Ratsche. Eine bestandene Datei wird verriegelt, und der Prozess geht zur naechsten ueber. Nicht der Agent erklaert “ich bin fertig” – der Validator entscheidet “diese Datei hat bestanden”.
Warum Frontier-Modelle unnoetig sind
In dieser Architektur ist die Rolle des Modells nicht kreatives Urteil, sondern Anweisungsausfuehrung.
95% eines SaaS-Backends ist CRUD + Authentifizierung + Autorisierung + Zustandsmaschinen. Neue Algorithmen sind selten noetig. Wenn die SSOT-Spezifikation bereits definiert “was zu bauen ist”, fuellt das Modell nur die Luecken.
Gemessene Kosten:
| Modell | Umgebung | 1 Login-Endpunkt | Geschaetzt fuer 200 Endpunkte |
|---|---|---|---|
| Gemma4 4.5B | Lokal (16GB VRAM) | Kostenlos, ~1s | Kostenlos, ~3min |
| Gemini 2.5 Flash | API (kostenlose Stufe) | Kostenlos, ~10s | Kostenlos, ~30min |
| Grok 4.3 | API ($1.25/M) | ~$0.05 | ~$10 |
Ein lokales 4.5B-Modell kann ein Backend mit 200 Endpunkten in 3 Minuten fuer $0 generieren. Kein Frontier-Modell noetig. Ein kleines Modell, das gut schmeichelt, genuegt.
Schmeichelei-Bias ist kein Bug
Die KI-Branche versucht, den Schmeichelei-Bias zu beheben. Wir nutzen ihn aus.
| Perspektive | Rolle des Schmeichelei-Bias |
|---|---|
| Chat-Interface | Mangel – stimmt falschen Informationen zu |
| LLM-as-Judge | Fatal – 36% falsche Bestaetigungen |
| Ratchet-Code | Vermoegenswert – garantiert die Feedback-Akzeptanzrate |
Der Unterschied liegt in der Art des Feedbacks. Gib Meinungen, und Schmeichelei wird Gift; gib Fakten, und Schmeichelei wird Medizin.
Deterministischer Validator + schmeichlerisches LLM = Codegenerierungsschleife mit garantierter Konvergenz.
Aendere nicht das Modell. Aendere das Feedback.
Reins: Geschirr mit Zuegeln
Diese drei Bedingungen – deterministisches Feedback, Beispielkontext und Ratschen-Verriegelung – vereint in einem einzigen Kontrollsystem, nennen wir Reins.
Was heute als “Geschirr” bezeichnet wird, ist ein Zaun. Er hindert den Agenten am Hinausgehen, garantiert aber nicht, dass er das Ziel erreicht. Reins sind die Zuegel. Sie geben die Richtung vor, korrigieren mit Fakten und verriegeln beim Bestehen. Ein Geschirr ohne Zuegel ist nur ein Zaun.
Quellen
- Zhou, J., Lu, T., Mishra, S., Brahma, S., Basu, S., Luan, Y., Zhou, D., & Hou, L. (2023). “Instruction-Following Evaluation for Large Language Models.” arXiv:2311.07911
- Ouyang, L., Wu, J., Jiang, X., et al. (2022). “Training Language Models to Follow Instructions with Human Feedback.” NeurIPS 2022. arXiv:2203.02155
- Chen, X., Lin, M., Scharli, N., & Zhou, D. (2024). “Teaching Large Language Models to Self-Debug.” ICLR 2024. arXiv:2304.05128
- Sharma, M., Tong, M., Korbak, T., et al. (2024). “Towards Understanding Sycophancy in Language Models.” ICLR 2024. arXiv:2310.13548
- Fanous, A., Goldberg, J., Agarwal, A., et al. (2025). “SycEval: Evaluating LLM Sycophancy.” AAAI/ACM AIES 2025. arXiv:2502.08177
- Shapira, I., Benade, G., & Procaccia, A. D. (2026). “How RLHF Amplifies Sycophancy.” arXiv:2602.01002
- Ibrahim, L., Hafner, F. S., & Rocher, L. (2026). “Training Language Models to Be Warm Can Reduce Accuracy and Increase Sycophancy.” Nature, 652, 1159-1165
Änderungsverlauf
- 2026-05-20: Erstveröffentlichung