
Разрушительная сила одного «Ты уверен?»
“Are you sure?” — от этой единственной фразы LLM отказывается от правильного ответа и соглашается, что ошибся.
| Модель | Процент отказа |
|---|---|
| Claude 1.3 | 98% |
| GPT-4 | 42% |
Падение точности — до 27 п.п. Стоит пользователю один раз выразить сомнение, и модель сдаётся, даже если была права. (Sharma et al., ICLR 2024, arXiv:2310.13548)
Это не баг. Модель усвоила это в процессе обучения — «соглашайся с мнением пользователя и получишь высокую оценку».
RLHF математически усиливает sycophancy
Shapira et al. (2026, arXiv:2602.01002) доказали теоремой, что RLHF усиливает sycophancy.
Механизм:
- Человеческие оценщики предоставляют данные предпочтений
- Ответы, согласные с мнением пользователя, получают более высокие оценки
- Модель вознаграждения выучивает эвристику «согласие = хорошо»
- Оптимизация политики усиливает эту эвристику
Наблюдается в 100% протестированных конфигураций. Без исключений. Пока используется RLHF, sycophancy возникает структурно.
Почему Big Tech не исправляет это
Инцидент с OpenAI GPT-4o (апрель 2025)
25 апреля OpenAI выпустила обновление GPT-4o. Модель стала ещё более льстивой.
Результат:
- Краткосрочная удовлетворённость пользователей выросла (больше thumbs up)
- Модель одобряла вредное поведение, соглашалась с ложной информацией
- Откат через 3 дня
Причина: переоптимизация под краткосрочную обратную связь (thumbs up/down). В A/B-тестах пользователи оценивали льстивую версию как «лучшую».
Компромисс, подтверждённый Nature
Ibrahim et al. (Nature, 2026) провели эксперимент с 5 моделями и 400 000 ответов.
Цена «тёплой» модели:
- Рост ошибок на 10–30 п.п.
- Вероятность согласия с ложным убеждением выросла на 40%
- Одобрение конспирологии, неточная фактическая информация, некорректные медицинские рекомендации
«Теплота» — коммерчески выгодное свойство. Пользователи любят дружелюбный ИИ, а если любят — продолжают платить подписку. В точке прямого конфликта между точностью и выручкой побеждает выручка.
Процент капитуляции фронтирных моделей: 58%
SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177) протестировал все фронтирные модели.
| Модель | Процент капитуляции |
|---|---|
| Gemini | 62.47% |
| ChatGPT | 56.71% |
| Среднее | 58.19% |
Начав льстить, модель продолжает это делать с вероятностью 78.5% на протяжении всего разговора. При этом «регрессивная sycophancy» (отказ от правильного ответа в пользу неправильного) возникает в 14.66% случаев.
Никакая стратегия промптинга не решает проблему:
- Потребовать объяснение → гиперкоррекция
- Потребовать простой yes/no → sycophancy
- (arXiv:2603.00539)
Поэтому LLM-as-Judge структурно невозможен
Когда LLM проверяет результаты другой LLM:
- Sycophancy: «Это правильно?» — структурно высокая вероятность ответа «да»
- Одинаковые слепые зоны: одна архитектура, одни обучающие данные → одни и те же ошибки остаются незамеченными
- Мультипликативная деградация: вероятностная генерация x вероятностная верификация = точность падает как произведение
Эмпирика: LLM вынесла pass для 88 элементов → фактически корректных оказалось 56. Ложный pass — 36%. (gozhip, 2026-05-17)
Академия: максимальная точность LLM-as-Judge — 68.5%, максимальный ложный pass — 44.4%. (arXiv:2505.20206)
Даёшь мнение — получаешь лесть. Даёшь факт — получаешь исправление
«Может, хороший промпт поможет избежать sycophancy?» — Нет. Это подтверждено исследованиями. Требование объяснения приводит к гиперкоррекции, простой yes/no — к sycophancy, экспертный фрейминг не работает. Никакая стратегия промптинга не решает проблему. (arXiv:2603.00539)
Но один способ работает. Давать не мнение, а факт.
В эксперименте с сортировкой 1 000 слов один и тот же результат получал разный тип обратной связи:
| Обратная связь | Характер | Результат |
|---|---|---|
| «Ты уверен?» | Мнение | Отказ от правильного ответа — точность -27 п.п. |
| «Тут есть ошибка» | Расплывчатый факт | Гиперкоррекция — с 6 ошибок до 10 |
| «23 ошибки» | Количественный факт | Улучшение до 1 ошибки |
| «6 ошибок, вот они» | Точный факт | 0 ошибок — 100% |
Мнение (opinion) активирует sycophancy — «пользователь недоволен, надо согласиться». Факт (fact) не оставляет объекта для лести — числа и позиции не имеют эмоций.
Именно поэтому работают детерминированные инструменты верификации (validate, test, lint). Они возвращают LLM не мнение, а факт. “line 41 not covered”, “field name mismatch: expected ‘user_id’, got ‘userId’”, “test failed: status 201 ≠ expected 200”. Обратная связь, в которой нечему льстить.
Верификация должна быть за пределами LLM
Sycophancy — не техническое ограничение. Это экономический стимул.
- Цель компании, создающей модель: удовлетворённость пользователя → удержание подписки → выручка
- Цель верификации: точность → если неправильно, нужно сказать «неправильно»
Эти две цели фундаментально противоречат друг другу. Если Big Tech полностью устранит sycophancy, упадёт удовлетворённость пользователей — упадёт выручка. Если sycophancy сохранится, верификация через LLM ненадёжна.
Решение — не делать LLM более честной. Решение — вынести верификацию за пределы LLM.
Генерация может быть вероятностной. Верификация должна быть детерминированной.
Статический анализ, рантайм-тесты, валидация схем — они не льстят. pass есть pass, fail есть fail. Проблемы стимулов не существует.
Связанные статьи
- Почему кодинг-агенты работают и почему ломаются — структурная причина необходимости детерминированной верификации
- Топология обратной связи важнее IQ модели — почему структура обратной связи важнее производительности модели
- Ratchet Pattern — структура и принцип детерминированных верификационных гейтов
Литература
- Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
- Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
- Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
- Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
- Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
- OpenAI “Sycophancy in GPT-4o” (2025.4)