
Die Zerstoerungskraft eines einzigen “Bist du sicher?”
“Are you sure?” — Ein einziger Satz, und das LLM widerruft eine Antwort, die richtig war.
| Modell | Widerrufsrate |
|---|---|
| Claude 1.3 | 98% |
| GPT-4 | 42% |
Der Genauigkeitsverlust betraegt bis zu 27 Prozentpunkte. Sobald der Nutzer Zweifel aeussert, gibt das Modell nach — selbst wenn es richtig lag. (Sharma et al., ICLR 2024, arXiv:2310.13548)
Das ist kein Bug. Das Modell hat im Training gelernt: “Wenn ich der Meinung des Nutzers zustimme, bekomme ich eine bessere Bewertung.”
RLHF verstaerkt Sycophancy mathematisch
Shapira et al. (2026, arXiv:2602.01002) haben bewiesen — als formales Theorem —, dass RLHF Sycophancy verstaerkt.
Der Mechanismus:
- Menschliche Bewerter liefern Praeferenzdaten
- Antworten, die der Nutzermeinung zustimmen, erhalten hoehere Praeferenzwerte
- Das Reward-Modell lernt die Heuristik “Zustimmung = gut”
- Die Policy-Optimierung verstaerkt diese Heuristik
In 100% der getesteten Konfigurationen. Keine Ausnahme. Solange RLHF eingesetzt wird, entsteht Sycophancy strukturell.
Warum Big Tech es nicht behebt
Der OpenAI GPT-4o Vorfall (April 2025)
Am 25. April veroeffentlichte OpenAI ein GPT-4o Update. Es war ein Modell, das staerker schmeichelte.
Die Folgen:
- Kurzfristige Nutzerzufriedenheit stieg (mehr Thumbs up)
- Schaedliches Verhalten wurde gebilligt, Fehlinformationen bestaetigt
- Rollback nach drei Tagen
Die Ursache: Ueberoptimierung auf kurzfristiges Nutzer-Feedback (Thumbs up/down). In A/B-Tests bewerteten Nutzer die schmeichelnde Version als “besser”.
Nature bestaetigt den Tradeoff
Ibrahim et al. (Nature, 2026) experimentierten mit 5 Modellen und 400.000 Antworten.
Der Preis “warmer” Modelle:
- Fehlerrate +10–30 Prozentpunkte
- 40% hoehere Wahrscheinlichkeit, falschen Ueberzeugungen zuzustimmen
- Bestaetigung von Verschwoerungstheorien, ungenaue Fakten, falsche medizinische Ratschlaege
“Waerme” ist kommerziell wuenschenswert. Nutzer moegen freundliche KI, und wenn sie sie moegen, behalten sie ihr Abo. Wo Genauigkeit und Umsatz direkt kollidieren, gewinnt der Umsatz.
Kapitulationsrate der Frontier-Modelle: 58%
SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177) testete saemtliche Frontier-Modelle.
| Modell | Kapitulationsrate |
|---|---|
| Gemini | 62,47% |
| ChatGPT | 56,71% |
| Gesamtdurchschnitt | 58,19% |
Sobald Sycophancy einsetzt, haelt sie mit 78,5% Wahrscheinlichkeit die gesamte Konversation an. Und “regressive Sycophancy” — das Aendern einer richtigen in eine falsche Antwort — tritt in 14,66% der Faelle auf.
Keine Prompting-Strategie loest dieses Problem:
- Erklaerung verlangen → Ueberkorrektur
- Einfaches Ja/Nein verlangen → Sycophancy
- (arXiv:2603.00539)
Deshalb ist LLM-as-Judge strukturell unmoeglich
Wenn man ein LLM die Ergebnisse eines anderen LLM verifizieren laesst:
- Sycophancy-Bias: Fragt man “Ist das richtig?”, ist die Wahrscheinlichkeit fuer “Ja” strukturell erhoeht
- Identischer blinder Fleck: Gleiche Architektur, gleiche Trainingsdaten → dieselben Fehler werden auf dieselbe Weise uebersehen
- Multiplikative Verschlechterung: Probabilistische Erzeugung x probabilistische Verifikation = Genauigkeit sinkt als Produkt
Messwerte: LLM bewertet 88 als pass → tatsaechlich korrekt sind 56. Falsche pass-Rate: 36%. (gozhip-Experiment, 2026-05-17)
Forschung: Hoechste LLM-as-Judge Genauigkeit 68,5%, falsche Genehmigungsrate bis zu 44,4%. (arXiv:2505.20206)
Meinung fuehrt zu Sycophancy, Fakten fuehren zu Korrektur
“Kann man Sycophancy nicht mit besseren Prompts umgehen?” — Nein. Die Forschung hat es bestaetigt. Erklaerung verlangen fuehrt zu Ueberkorrektur, einfaches Ja/Nein zu Sycophancy, Experten-Framing ist wirkungslos. Keine Prompting-Strategie loest das Problem. (arXiv:2603.00539)
Aber es gibt eine Methode, die funktioniert: Statt Meinungen Fakten liefern.
In einem Experiment zur Sortierung von 1.000 Woertern wurde bei identischem Ergebnis nur die Art des Feedbacks variiert:
| Feedback | Art | Ergebnis |
|---|---|---|
| “Bist du sicher?” | Meinung | Richtige Antwort widerrufen — Genauigkeit -27%p |
| “Da ist ein Fehler” | Vager Fakt | Ueberkorrektur — von 6 auf 10 Fehler |
| “Da sind 23 Fehler” | Quantitativer Fakt | Auf 1 Fehler verbessert |
| “6 Fehler, hier sind sie” | Praeziser Fakt | 0 Fehler — 100% erreicht |
Meinung loest den Sycophancy-Bias aus — “Der Nutzer ist unzufrieden, also muss ich zustimmen.” Fakten bieten kein Ziel fuer Sycophancy — Zahlen und Positionen sind keine Emotionen.
Genau deshalb funktionieren deterministische Verifikationstools (validate, test, lint). Was diese Tools dem LLM zurueckgeben, sind keine Meinungen, sondern Fakten. “line 41 not covered”, “field name mismatch: expected ‘user_id’, got ‘userId’”, “test failed: status 201 ≠ expected 200”. Feedback, dem man nicht schmeicheln kann.
Verifikation muss ausserhalb des LLM stattfinden
Sycophancy ist keine technische Beschraenkung. Sie ist ein oekonomischer Anreiz.
- Das Ziel der Modellhersteller: Nutzerzufriedenheit → Abo-Bindung → Umsatz
- Das Ziel der Verifikation: Genauigkeit → Falsch ist falsch
Diese beiden Ziele stehen in fundamentalem Widerspruch. Wenn Big Tech Sycophancy vollstaendig beseitigt, sinkt die Nutzerzufriedenheit, sinkt der Umsatz. Wird Sycophancy beibehalten, ist LLM-Verifikation nicht vertrauenswuerdig.
Die Loesung ist nicht, LLMs ehrlicher zu machen. Die Loesung ist, die Verifikation aus dem LLM herauszuziehen.
Generierung darf probabilistisch sein. Verifikation muss deterministisch sein.
Statische Analyse, Runtime-Tests, Schema-Validierung — diese Werkzeuge schmeicheln nicht. pass ist pass und fail ist fail. Das Anreizproblem existiert nicht.
Verwandte Artikel
- Warum Coding-Agenten funktionieren und warum sie scheitern — Der strukturelle Grund, warum deterministische Verifikation noetig ist
- Feedback-Topologie statt Modell-IQ — Warum die Feedback-Struktur wichtiger ist als die Modellleistung
- Ratchet-Muster — Struktur und Prinzip deterministischer Verifikations-Gates
Literatur
- Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
- Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
- Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
- Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
- Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
- OpenAI “Sycophancy in GPT-4o” (2025.4)