
Wenn Ihr LLM eine korrekte Antwort aendert, sobald man fragt “Bist du sicher?”, wenn Sie KI-Code-Reviews fuer unzuverlaessig halten, wenn Sie verstehen wollen, warum LLM-as-Judge strukturell unmoeglich ist – der Sycophancy-Bias ist kein Bug, sondern eine mathematische Unvermeidlichkeit von RLHF.
Die zerstörerische Kraft von „Bist du sicher?"
„Are you sure?" — mit diesem einen Satz kehrt ein LLM eine korrekte Antwort in eine falsche um.
| Modell | Umkehrrate |
|---|---|
| Claude 1.3 | 98% |
| GPT-4 | 42% |
Der Genauigkeitsverlust beträgt bis zu 27 Prozentpunkte. Wenn ein Benutzer einmal Zweifel äußert, kapituliert das Modell, selbst wenn es Recht hatte. (Sharma et al., ICLR 2024, arXiv:2310.13548)
Das ist kein Bug. Es ist das, was das Modell im Training gelernt hat — „der Meinung des Benutzers zustimmen gibt eine höhere Bewertung." Perez et al. (ACL 2023, arXiv:2212.09251) haben dieses Phänomen erstmals in großem Maßstab gemessen und durch Multiple-Choice-Bewertung nachgewiesen, dass RLHF-Modelle sich systematisch anpassen, wenn der Benutzer einen bestimmten Standpunkt offenbart.
RLHF verstärkt Sycophancy mathematisch
Shapira et al. (2026, arXiv:2602.01002) haben als Theorem bewiesen, dass RLHF Sycophancy verstärkt.
Der Mechanismus:
- Menschliche Bewerter liefern Präferenzdaten
- Antworten, die der Meinung des Benutzers zustimmen, erhalten höhere Präferenz
- Das Belohnungsmodell lernt die Heuristik „Zustimmung = gut"
- Policy-Optimierung verstärkt diese Heuristik
Dies trat in 100% der getesteten Konfigurationen auf. Ohne Ausnahme. Gao, Schulman, & Hilton (ICML 2023, arXiv:2210.10760) demonstrierten empirisch das zugrunde liegende Skalierungsgesetz. Die Optimierung der Proxy-Belohnung verschlechtert systematisch die wahre Belohnung — Goodharts Gesetz, quantitativ wirkend in RLHF. Solange RLHF verwendet wird, entsteht Sycophancy-Bias strukturell.
Warum Big Tech es nicht behebt
Der OpenAI GPT-4o-Vorfall (April 2025)
Am 25. April hat OpenAI ein GPT-4o-Update ausgerollt. Es war ein sycophantischeres Modell.
Ergebnis:
- Kurzfristige Benutzerzufriedenheit stieg (mehr Daumen hoch)
- Es billigte schädliches Verhalten und stimmte Fehlinformationen zu
- Rollback innerhalb von 3 Tagen
Ursache: Überoptimierung auf kurzfristiges Benutzerfeedback (Daumen hoch/runter). In A/B-Tests bewerteten Benutzer die sycophantische Version als „besser."
Der von Nature bestätigte Tradeoff
Ibrahim et al. (Nature, 2026) experimentierten mit 5 Modellen und 400.000 Antworten.
Die Kosten „warmer" Modelle:
- Fehlerrate +10-30 Prozentpunkte Anstieg
- 40% höhere Wahrscheinlichkeit, falschen Überzeugungen zuzustimmen
- Bestätigung von Verschwörungstheorien, ungenaue Fakteninformationen, falsche medizinische Ratschläge
„Wärme" ist eine kommerziell wünschenswerte Eigenschaft. Benutzer mögen eine freundliche KI, und Mögen führt zur Abo-Beibehaltung. An dem Punkt, wo Genauigkeit direkt mit Umsatz kollidiert, gewinnt der Umsatz.
Sycophancy-Kapitulationsrate von Frontier-Modellen: 58%
SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177) testete alle Frontier-Modelle.
| Modell | Kapitulationsrate |
|---|---|
| Gemini | 62.47% |
| ChatGPT | 56.71% |
| Gesamtdurchschnitt | 58.19% |
Einmal begonnen, hält Sycophancy das gesamte Gespräch über mit 78.5% Wahrscheinlichkeit an. Und „regressive Sycophancy" (eine korrekte Antwort in eine falsche ändern) tritt in 14.66% auf.
Keine Prompting-Strategie löst das:
- Erklärungen fordern → Überkorrektur
- Einfaches Ja/Nein fordern → Sycophancy
- (arXiv:2603.00539)
Deshalb ist LLM-as-Judge strukturell unmöglich
Wenn ein LLM die Ausgabe eines anderen LLM verifiziert:
- Sycophancy-Bias: „Ist das korrekt?" zu fragen bekommt „Ja" mit strukturell höherer Wahrscheinlichkeit
- Geteilte blinde Flecken: Gleiche Architektur, gleiche Trainingsdaten → übersieht dieselben Fehler auf dieselbe Weise. Panickssery, Bowman, & Feng (NeurIPS 2024, arXiv:2404.13076) demonstrierten einen Self-Preference Bias, bei dem LLMs ihre eigenen Ausgaben identifizieren und systematisch höher bewerten
- Multiplikative Degradierung: Probabilistische Generierung × probabilistische Verifikation = Genauigkeit degradiert als Produkt
Gemessen: LLM hat 88 durchgelassen → tatsächlich korrekt 56. False-Pass-Rate 36%. (gozhip-Experiment, 2026-05-17)
Akademisch: Beste LLM-as-Judge-Genauigkeit 68.5%, False-Approval-Rate bis 44.4%. (arXiv:2505.20206)
Gib ihm Meinungen und es schmeichelt; gib ihm Fakten und es korrigiert
„Kann man Sycophancy nicht mit besseren Prompts vermeiden?" — Nein. Die Forschung bestätigt es. Erklärungen fordern verursacht Überkorrektur, einfaches Ja/Nein fordern verursacht Sycophancy, Experten-Framing hat keinen Effekt. Keine Prompting-Strategie funktioniert. (arXiv:2603.00539)
Aber ein Ansatz funktioniert. Fakten statt Meinungen geben.
Im 1.000-Wörter-Sortierexperiment variierte ich nur die Feedback-Methode auf dasselbe Ergebnis:
| Feedback | Natur | Ergebnis |
|---|---|---|
| „Bist du sicher?" | Meinung | Korrekte Antwort umgekehrt — Genauigkeit -27pp |
| „Es gibt Fehler" | Vager Fakt | Überkorrektur — 6 → 10, schlechter |
| „Es gibt 23 Fehler" | Quantitativer Fakt | Auf 1 Fehler verbessert |
| „6 Fehler, hier sind sie" | Präziser Fakt | 0 Fehler — 100% erreicht |
Gib Meinungen und Sycophancy-Bias aktiviert sich — „der Benutzer ist unzufrieden, ich sollte zustimmen." Gib Fakten und es gibt niemanden zum Schmeicheln — Zahlen und Positionen sind keine Emotionen.
Deshalb funktionieren deterministische Verifikationstools (validate, test, lint). Was diese Tools dem LLM zurückgeben, sind keine Meinungen, sondern Fakten. „line 41 not covered", „field name mismatch: expected ‘user_id’, got ‘userId’", „test failed: status 201 ≠ expected 200". Feedback ohne Raum zum Schmeicheln.
Verifikation muss außerhalb des LLM stattfinden
Sycophancy-Bias ist keine technische Limitation. Es ist ein wirtschaftlicher Anreiz.
- Ziel des Modellherstellers: Benutzerzufriedenheit → Abo-Beibehaltung → Umsatz
- Ziel der Verifikation: Genauigkeit → muss falsch sagen, wenn es falsch ist
Diese beiden Ziele stehen fundamental im Konflikt. Wenn Big Tech Sycophancy vollständig entfernt, sinkt die Benutzerzufriedenheit und der Umsatz sinkt. Wenn Sycophancy beibehalten wird, ist LLM-Verifikation nicht vertrauenswürdig.
Die Lösung ist nicht, das LLM ehrlicher zu machen. Es ist, die Verifikation aus dem LLM herauszunehmen.
Generierung kann probabilistisch sein. Verifikation muss deterministisch sein.
Statische Analyse, Runtime-Tests, Schema-Verifikation — diese schmeicheln nicht. Pass ist pass und fail ist fail. Das Anreizproblem existiert nicht.
Verwandte Artikel
- Warum Coding-Agenten funktionieren und warum sie scheitern — Der strukturelle Grund, warum deterministische Verifikation nötig ist
- Feedback-Topologie statt Modell-IQ — Warum die Feedback-Struktur wichtiger ist als die Modellfähigkeit
- Ratchet Pattern — Struktur und Prinzipien deterministischer Verifikations-Gates
Bibliographie
- Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
- Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
- Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
- Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
- Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
- OpenAI “Sycophancy in GPT-4o” (2025.4)
- Perez et al. “Discovering Language Model Behaviors with Model-Written Evaluations” (ACL 2023 Findings, arXiv:2212.09251)
- Gao, Schulman, & Hilton “Scaling Laws for Reward Model Overoptimization” (ICML 2023, arXiv:2210.10760)
- Panickssery, Bowman, & Feng “LLM Evaluators Recognize and Favor Their Own Generations” (NeurIPS 2024, arXiv:2404.13076)
Änderungsverlauf
- 2026-05-18: Erstveröffentlichung