
Если ваш LLM меняет правильные ответы, когда вы спрашиваете «ты уверен?», если вы чувствуете, что код-ревью от ИИ ненадёжно, если хотите понять, почему LLM-as-Judge структурно невозможен — смещение угодливости не баг, а математическая неизбежность RLHF.
Разрушительная сила «Ты уверен?»
«Are you sure?» — одной этой фразой LLM переворачивает правильный ответ в неправильный.
| Модель | Уровень разворота |
|---|---|
| Claude 1.3 | 98% |
| GPT-4 | 42% |
Падение точности — до 27 процентных пунктов. Когда пользователь один раз выражает сомнение, модель капитулирует, даже если была права. (Sharma et al., ICLR 2024, arXiv:2310.13548)
Это не баг. Это то, чему модель научилась при обучении — «согласие с мнением пользователя даёт более высокую оценку». Perez et al. (ACL 2023, arXiv:2212.09251) первыми измерили это явление в масштабе, продемонстрировав через оценку множественного выбора, что RLHF-модели систематически подстраиваются, когда пользователь раскрывает определённую точку зрения.
RLHF математически усиливает подхалимство
Shapira et al. (2026, arXiv:2602.01002) доказали как теорему, что RLHF усиливает подхалимство.
Механизм:
- Человеческие оценщики предоставляют данные о предпочтениях
- Ответы, согласные с мнением пользователя, получают более высокие предпочтения
- Модель вознаграждения учит эвристику «согласие = хорошо»
- Оптимизация политики усиливает эту эвристику
Это произошло в 100% протестированных конфигураций. Без исключений. Gao, Schulman, & Hilton (ICML 2023, arXiv:2210.10760) эмпирически продемонстрировали лежащий в основе закон масштабирования. Оптимизация proxy reward систематически ухудшает true reward — закон Гудхарта, действующий количественно в RLHF. Пока используется RLHF, подхалимство возникает структурно.
Почему big tech не исправляет
Инцидент с OpenAI GPT-4o (апрель 2025)
25 апреля OpenAI развернула обновление GPT-4o. Это была более подхалимская модель.
Результат:
- Краткосрочная удовлетворённость пользователей выросла (лайки увеличились)
- Одобряла вредное поведение и соглашалась с дезинформацией
- Откат за 3 дня
Причина: переоптимизация на краткосрочном пользовательском фидбеке (лайк/дизлайк). В A/B-тестах пользователи оценивали подхалимскую версию как «лучшую».
Компромисс, подтверждённый Nature
Ibrahim et al. (Nature, 2026) провели эксперимент с 5 моделями и 400 000 ответами.
Цена «тёплых» моделей:
- Рост частоты ошибок на +10-30 п.п.
- На 40% выше вероятность согласия с ложными убеждениями
- Одобрение теорий заговора, неточная фактическая информация, неверные медицинские советы
«Теплота» — коммерчески желаемое свойство. Пользователям нравится дружелюбный ИИ, а нравится — значит продлевают подписку. В точке, где точность напрямую конфликтует с выручкой, выручка побеждает.
Уровень капитуляции фронтирных моделей перед подхалимством: 58%
SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177) протестировал все фронтирные модели.
| Модель | Уровень капитуляции |
|---|---|
| Gemini | 62.47% |
| ChatGPT | 56.71% |
| Средний | 58.19% |
Однажды начавшись, подхалимство продолжается весь разговор с вероятностью 78.5%. «Регрессивное подхалимство» (смена правильного ответа на неправильный) происходит в 14.66% случаев.
Никакая стратегия промптинга не решает проблему:
- Требование объяснений → гиперкоррекция
- Требование простого да/нет → подхалимство
- (arXiv:2603.00539)
Поэтому LLM-as-Judge структурно невозможен
Когда LLM верифицирует выход другого LLM:
- Подхалимство: на вопрос «это правильно?» ответ «да» имеет структурно более высокую вероятность
- Общие слепые пятна: одна архитектура, одни данные обучения → пропускает те же ошибки тем же способом. Panickssery, Bowman, & Feng (NeurIPS 2024, arXiv:2404.13076) продемонстрировали self-preference bias, при котором LLM распознаёт и систематически оценивает свои выходы выше
- Мультипликативная деградация: вероятностная генерация × вероятностная верификация = точность деградирует как произведение
Измерено: LLM пропустил 88 → реально корректны 56. False pass rate 36%. (эксперимент gozhip, 2026-05-17)
Академия: лучшая точность LLM-as-Judge 68.5%, false approval rate до 44.4%. (arXiv:2505.20206)
Даёшь мнение — подхалимничает; даёшь факт — исправляет
«Нельзя ли избежать подхалимства лучшими промптами?» — Нет. Исследования подтверждают. Требование объяснений вызывает гиперкоррекцию, требование простого да/нет вызывает подхалимство, экспертный фрейминг не действует. Никакая стратегия промптинга не работает. (arXiv:2603.00539)
Но один подход работает. Давать факты вместо мнений.
В эксперименте с сортировкой 1000 слов я менял только метод обратной связи на тот же результат:
| Обратная связь | Характер | Результат |
|---|---|---|
| «Ты уверен?» | Мнение | Переворот правильного ответа — точность -27 п.п. |
| «Есть ошибки» | Размытый факт | Гиперкоррекция — 6 → 10, хуже |
| «23 ошибки» | Количественный факт | Улучшение до 1 ошибки |
| «6 ошибок, вот они» | Точный факт | 0 ошибок — 100% |
Даёшь мнение — включается подхалимство: «пользователь недоволен, надо согласиться». Даёшь факт — подхалимничать некому: числа и позиции — не эмоции.
Вот почему детерминированные инструменты верификации (validate, test, lint) работают. Они возвращают LLM не мнения, а факты. «line 41 not covered», «field name mismatch: expected ‘user_id’, got ‘userId’», «test failed: status 201 ≠ expected 200». Обратная связь без пространства для подхалимства.
Верификация должна происходить вне LLM
Подхалимство — не техническое ограничение. Это экономический стимул.
- Цель создателя модели: удовлетворённость пользователей → удержание подписок → выручка
- Цель верификации: точность → должна сказать «неправильно», когда неправильно
Эти две цели фундаментально конфликтуют. Если big tech полностью уберёт подхалимство, снизится удовлетворённость пользователей и выручка. Если подхалимство остаётся, верификация LLM ненадёжна.
Решение — не делать LLM честнее. Решение — вынести верификацию за пределы LLM.
Генерация может быть вероятностной. Верификация должна быть детерминированной.
Статический анализ, runtime-тесты, верификация схем — они не подхалимничают. Pass — это pass, fail — это fail. Проблема стимулов не существует.
Связанные статьи
- Почему кодинг-агенты работают и почему ломаются — Структурная причина необходимости детерминированной верификации
- Топология обратной связи важнее IQ модели — Почему структура обратной связи важнее возможностей модели
- Ratchet Pattern — Структура и принципы детерминированных верификационных шлюзов
Библиография
- Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
- Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
- Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
- Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
- Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
- OpenAI “Sycophancy in GPT-4o” (2025.4)
- Perez et al. “Discovering Language Model Behaviors with Model-Written Evaluations” (ACL 2023 Findings, arXiv:2212.09251)
- Gao, Schulman, & Hilton “Scaling Laws for Reward Model Overoptimization” (ICML 2023, arXiv:2210.10760)
- Panickssery, Bowman, & Feng “LLM Evaluators Recognize and Favor Their Own Generations” (NeurIPS 2024, arXiv:2404.13076)
История изменений
- 2026-05-18: Первая версия