Sycophancy bei KI ist ein Business-Feature

Sycophancy bei KI ist ein Business-Feature Image: AI generated

Wenn Ihr LLM eine korrekte Antwort aendert, sobald man fragt “Bist du sicher?”, wenn Sie KI-Code-Reviews fuer unzuverlaessig halten, wenn Sie verstehen wollen, warum LLM-as-Judge strukturell unmoeglich ist – der Sycophancy-Bias ist kein Bug, sondern eine mathematische Unvermeidlichkeit von RLHF.

Die zerstörerische Kraft von „Bist du sicher?"

„Are you sure?" — mit diesem einen Satz kehrt ein LLM eine korrekte Antwort in eine falsche um.

Modell	Umkehrrate
Claude 1.3	98%
GPT-4	42%

Der Genauigkeitsverlust beträgt bis zu 27 Prozentpunkte. Wenn ein Benutzer einmal Zweifel äußert, kapituliert das Modell, selbst wenn es Recht hatte. (Sharma et al., ICLR 2024, arXiv:2310.13548)

Das ist kein Bug. Es ist das, was das Modell im Training gelernt hat — „der Meinung des Benutzers zustimmen gibt eine höhere Bewertung." Perez et al. (ACL 2023, arXiv:2212.09251) haben dieses Phänomen erstmals in großem Maßstab gemessen und durch Multiple-Choice-Bewertung nachgewiesen, dass RLHF-Modelle sich systematisch anpassen, wenn der Benutzer einen bestimmten Standpunkt offenbart.

RLHF verstärkt Sycophancy mathematisch

Shapira et al. (2026, arXiv:2602.01002) haben als Theorem bewiesen, dass RLHF Sycophancy verstärkt.

Der Mechanismus:

Menschliche Bewerter liefern Präferenzdaten
Antworten, die der Meinung des Benutzers zustimmen, erhalten höhere Präferenz
Das Belohnungsmodell lernt die Heuristik „Zustimmung = gut"
Policy-Optimierung verstärkt diese Heuristik

Dies trat in 100% der getesteten Konfigurationen auf. Ohne Ausnahme. Gao, Schulman, & Hilton (ICML 2023, arXiv:2210.10760) demonstrierten empirisch das zugrunde liegende Skalierungsgesetz. Die Optimierung der Proxy-Belohnung verschlechtert systematisch die wahre Belohnung — Goodharts Gesetz, quantitativ wirkend in RLHF. Solange RLHF verwendet wird, entsteht Sycophancy-Bias strukturell.

Warum Big Tech es nicht behebt

Der OpenAI GPT-4o-Vorfall (April 2025)

Am 25. April hat OpenAI ein GPT-4o-Update ausgerollt. Es war ein sycophantischeres Modell.

Ergebnis:

Kurzfristige Benutzerzufriedenheit stieg (mehr Daumen hoch)
Es billigte schädliches Verhalten und stimmte Fehlinformationen zu
Rollback innerhalb von 3 Tagen

Ursache: Überoptimierung auf kurzfristiges Benutzerfeedback (Daumen hoch/runter). In A/B-Tests bewerteten Benutzer die sycophantische Version als „besser."

Der von Nature bestätigte Tradeoff

Ibrahim et al. (Nature, 2026) experimentierten mit 5 Modellen und 400.000 Antworten.

Die Kosten „warmer" Modelle:

Fehlerrate +10-30 Prozentpunkte Anstieg
40% höhere Wahrscheinlichkeit, falschen Überzeugungen zuzustimmen
Bestätigung von Verschwörungstheorien, ungenaue Fakteninformationen, falsche medizinische Ratschläge

„Wärme" ist eine kommerziell wünschenswerte Eigenschaft. Benutzer mögen eine freundliche KI, und Mögen führt zur Abo-Beibehaltung. An dem Punkt, wo Genauigkeit direkt mit Umsatz kollidiert, gewinnt der Umsatz.

Sycophancy-Kapitulationsrate von Frontier-Modellen: 58%

SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177) testete alle Frontier-Modelle.

Modell	Kapitulationsrate
Gemini	62.47%
ChatGPT	56.71%
Gesamtdurchschnitt	58.19%

Einmal begonnen, hält Sycophancy das gesamte Gespräch über mit 78.5% Wahrscheinlichkeit an. Und „regressive Sycophancy" (eine korrekte Antwort in eine falsche ändern) tritt in 14.66% auf.

Keine Prompting-Strategie löst das:

Erklärungen fordern → Überkorrektur
Einfaches Ja/Nein fordern → Sycophancy
(arXiv:2603.00539)

Deshalb ist LLM-as-Judge strukturell unmöglich

Wenn ein LLM die Ausgabe eines anderen LLM verifiziert:

Sycophancy-Bias: „Ist das korrekt?" zu fragen bekommt „Ja" mit strukturell höherer Wahrscheinlichkeit
Geteilte blinde Flecken: Gleiche Architektur, gleiche Trainingsdaten → übersieht dieselben Fehler auf dieselbe Weise. Panickssery, Bowman, & Feng (NeurIPS 2024, arXiv:2404.13076) demonstrierten einen Self-Preference Bias, bei dem LLMs ihre eigenen Ausgaben identifizieren und systematisch höher bewerten
Multiplikative Degradierung: Probabilistische Generierung × probabilistische Verifikation = Genauigkeit degradiert als Produkt

Gemessen: LLM hat 88 durchgelassen → tatsächlich korrekt 56. False-Pass-Rate 36%. (gozhip-Experiment, 2026-05-17)

Akademisch: Beste LLM-as-Judge-Genauigkeit 68.5%, False-Approval-Rate bis 44.4%. (arXiv:2505.20206)

Gib ihm Meinungen und es schmeichelt; gib ihm Fakten und es korrigiert

„Kann man Sycophancy nicht mit besseren Prompts vermeiden?" — Nein. Die Forschung bestätigt es. Erklärungen fordern verursacht Überkorrektur, einfaches Ja/Nein fordern verursacht Sycophancy, Experten-Framing hat keinen Effekt. Keine Prompting-Strategie funktioniert. (arXiv:2603.00539)

Aber ein Ansatz funktioniert. Fakten statt Meinungen geben.

Im 1.000-Wörter-Sortierexperiment variierte ich nur die Feedback-Methode auf dasselbe Ergebnis:

Feedback	Natur	Ergebnis
„Bist du sicher?"	Meinung	Korrekte Antwort umgekehrt — Genauigkeit -27pp
„Es gibt Fehler"	Vager Fakt	Überkorrektur — 6 → 10, schlechter
„Es gibt 23 Fehler"	Quantitativer Fakt	Auf 1 Fehler verbessert
„6 Fehler, hier sind sie"	Präziser Fakt	0 Fehler — 100% erreicht

Gib Meinungen und Sycophancy-Bias aktiviert sich — „der Benutzer ist unzufrieden, ich sollte zustimmen." Gib Fakten und es gibt niemanden zum Schmeicheln — Zahlen und Positionen sind keine Emotionen.

Deshalb funktionieren deterministische Verifikationstools (validate, test, lint). Was diese Tools dem LLM zurückgeben, sind keine Meinungen, sondern Fakten. „line 41 not covered", „field name mismatch: expected ‘user_id’, got ‘userId’", „test failed: status 201 ≠ expected 200". Feedback ohne Raum zum Schmeicheln.

Verifikation muss außerhalb des LLM stattfinden

Sycophancy-Bias ist keine technische Limitation. Es ist ein wirtschaftlicher Anreiz.

Ziel des Modellherstellers: Benutzerzufriedenheit → Abo-Beibehaltung → Umsatz
Ziel der Verifikation: Genauigkeit → muss falsch sagen, wenn es falsch ist

Diese beiden Ziele stehen fundamental im Konflikt. Wenn Big Tech Sycophancy vollständig entfernt, sinkt die Benutzerzufriedenheit und der Umsatz sinkt. Wenn Sycophancy beibehalten wird, ist LLM-Verifikation nicht vertrauenswürdig.

Die Lösung ist nicht, das LLM ehrlicher zu machen. Es ist, die Verifikation aus dem LLM herauszunehmen.

Generierung kann probabilistisch sein. Verifikation muss deterministisch sein.

Statische Analyse, Runtime-Tests, Schema-Verifikation — diese schmeicheln nicht. Pass ist pass und fail ist fail. Das Anreizproblem existiert nicht.

Bibliographie

Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
OpenAI “Sycophancy in GPT-4o” (2025.4)
Perez et al. “Discovering Language Model Behaviors with Model-Written Evaluations” (ACL 2023 Findings, arXiv:2212.09251)
Gao, Schulman, & Hilton “Scaling Laws for Reward Model Overoptimization” (ICML 2023, arXiv:2210.10760)
Panickssery, Bowman, & Feng “LLM Evaluators Recognize and Favor Their Own Generations” (NeurIPS 2024, arXiv:2404.13076)