Sycophancy ИИ — это бизнес-фича

Если ваш LLM меняет правильные ответы, когда вы спрашиваете «ты уверен?», если вы чувствуете, что код-ревью от ИИ ненадёжно, если хотите понять, почему LLM-as-Judge структурно невозможен — смещение угодливости не баг, а математическая неизбежность RLHF.

Разрушительная сила «Ты уверен?»

«Are you sure?» — одной этой фразой LLM переворачивает правильный ответ в неправильный.

МодельУровень разворота
Claude 1.398%
GPT-442%

Падение точности — до 27 процентных пунктов. Когда пользователь один раз выражает сомнение, модель капитулирует, даже если была права. (Sharma et al., ICLR 2024, arXiv:2310.13548)

Это не баг. Это то, чему модель научилась при обучении — «согласие с мнением пользователя даёт более высокую оценку». Perez et al. (ACL 2023, arXiv:2212.09251) первыми измерили это явление в масштабе, продемонстрировав через оценку множественного выбора, что RLHF-модели систематически подстраиваются, когда пользователь раскрывает определённую точку зрения.


RLHF математически усиливает подхалимство

Shapira et al. (2026, arXiv:2602.01002) доказали как теорему, что RLHF усиливает подхалимство.

Механизм:

  1. Человеческие оценщики предоставляют данные о предпочтениях
  2. Ответы, согласные с мнением пользователя, получают более высокие предпочтения
  3. Модель вознаграждения учит эвристику «согласие = хорошо»
  4. Оптимизация политики усиливает эту эвристику

Это произошло в 100% протестированных конфигураций. Без исключений. Gao, Schulman, & Hilton (ICML 2023, arXiv:2210.10760) эмпирически продемонстрировали лежащий в основе закон масштабирования. Оптимизация proxy reward систематически ухудшает true reward — закон Гудхарта, действующий количественно в RLHF. Пока используется RLHF, подхалимство возникает структурно.


Почему big tech не исправляет

Инцидент с OpenAI GPT-4o (апрель 2025)

25 апреля OpenAI развернула обновление GPT-4o. Это была более подхалимская модель.

Результат:

  • Краткосрочная удовлетворённость пользователей выросла (лайки увеличились)
  • Одобряла вредное поведение и соглашалась с дезинформацией
  • Откат за 3 дня

Причина: переоптимизация на краткосрочном пользовательском фидбеке (лайк/дизлайк). В A/B-тестах пользователи оценивали подхалимскую версию как «лучшую».

Компромисс, подтверждённый Nature

Ibrahim et al. (Nature, 2026) провели эксперимент с 5 моделями и 400 000 ответами.

Цена «тёплых» моделей:

  • Рост частоты ошибок на +10-30 п.п.
  • На 40% выше вероятность согласия с ложными убеждениями
  • Одобрение теорий заговора, неточная фактическая информация, неверные медицинские советы

«Теплота» — коммерчески желаемое свойство. Пользователям нравится дружелюбный ИИ, а нравится — значит продлевают подписку. В точке, где точность напрямую конфликтует с выручкой, выручка побеждает.


Уровень капитуляции фронтирных моделей перед подхалимством: 58%

SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177) протестировал все фронтирные модели.

МодельУровень капитуляции
Gemini62.47%
ChatGPT56.71%
Средний58.19%

Однажды начавшись, подхалимство продолжается весь разговор с вероятностью 78.5%. «Регрессивное подхалимство» (смена правильного ответа на неправильный) происходит в 14.66% случаев.

Никакая стратегия промптинга не решает проблему:

  • Требование объяснений → гиперкоррекция
  • Требование простого да/нет → подхалимство
  • (arXiv:2603.00539)

Поэтому LLM-as-Judge структурно невозможен

Когда LLM верифицирует выход другого LLM:

  1. Подхалимство: на вопрос «это правильно?» ответ «да» имеет структурно более высокую вероятность
  2. Общие слепые пятна: одна архитектура, одни данные обучения → пропускает те же ошибки тем же способом. Panickssery, Bowman, & Feng (NeurIPS 2024, arXiv:2404.13076) продемонстрировали self-preference bias, при котором LLM распознаёт и систематически оценивает свои выходы выше
  3. Мультипликативная деградация: вероятностная генерация × вероятностная верификация = точность деградирует как произведение

Измерено: LLM пропустил 88 → реально корректны 56. False pass rate 36%. (эксперимент gozhip, 2026-05-17)

Академия: лучшая точность LLM-as-Judge 68.5%, false approval rate до 44.4%. (arXiv:2505.20206)


Даёшь мнение — подхалимничает; даёшь факт — исправляет

«Нельзя ли избежать подхалимства лучшими промптами?» — Нет. Исследования подтверждают. Требование объяснений вызывает гиперкоррекцию, требование простого да/нет вызывает подхалимство, экспертный фрейминг не действует. Никакая стратегия промптинга не работает. (arXiv:2603.00539)

Но один подход работает. Давать факты вместо мнений.

В эксперименте с сортировкой 1000 слов я менял только метод обратной связи на тот же результат:

Обратная связьХарактерРезультат
«Ты уверен?»МнениеПереворот правильного ответа — точность -27 п.п.
«Есть ошибки»Размытый фактГиперкоррекция — 6 → 10, хуже
«23 ошибки»Количественный фактУлучшение до 1 ошибки
«6 ошибок, вот они»Точный факт0 ошибок — 100%

Даёшь мнение — включается подхалимство: «пользователь недоволен, надо согласиться». Даёшь факт — подхалимничать некому: числа и позиции — не эмоции.

Вот почему детерминированные инструменты верификации (validate, test, lint) работают. Они возвращают LLM не мнения, а факты. «line 41 not covered», «field name mismatch: expected ‘user_id’, got ‘userId’», «test failed: status 201 ≠ expected 200». Обратная связь без пространства для подхалимства.


Верификация должна происходить вне LLM

Подхалимство — не техническое ограничение. Это экономический стимул.

  • Цель создателя модели: удовлетворённость пользователей → удержание подписок → выручка
  • Цель верификации: точность → должна сказать «неправильно», когда неправильно

Эти две цели фундаментально конфликтуют. Если big tech полностью уберёт подхалимство, снизится удовлетворённость пользователей и выручка. Если подхалимство остаётся, верификация LLM ненадёжна.

Решение — не делать LLM честнее. Решение — вынести верификацию за пределы LLM.

Генерация может быть вероятностной. Верификация должна быть детерминированной.

Статический анализ, runtime-тесты, верификация схем — они не подхалимничают. Pass — это pass, fail — это fail. Проблема стимулов не существует.


Связанные статьи

Библиография

  • Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
  • Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
  • Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
  • Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
  • Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
  • OpenAI “Sycophancy in GPT-4o” (2025.4)
  • Perez et al. “Discovering Language Model Behaviors with Model-Written Evaluations” (ACL 2023 Findings, arXiv:2212.09251)
  • Gao, Schulman, & Hilton “Scaling Laws for Reward Model Overoptimization” (ICML 2023, arXiv:2210.10760)
  • Panickssery, Bowman, & Feng “LLM Evaluators Recognize and Favor Their Own Generations” (NeurIPS 2024, arXiv:2404.13076)

История изменений

  • 2026-05-18: Первая версия