Sycophancy ИИ — это бизнес-фича

Sycophancy ИИ — это бизнес-фича Image: AI generated

Если ваш LLM меняет правильные ответы, когда вы спрашиваете «ты уверен?», если вы чувствуете, что код-ревью от ИИ ненадёжно, если хотите понять, почему LLM-as-Judge структурно невозможен — смещение угодливости не баг, а математическая неизбежность RLHF.

Разрушительная сила «Ты уверен?»

«Are you sure?» — одной этой фразой LLM переворачивает правильный ответ в неправильный.

Модель	Уровень разворота
Claude 1.3	98%
GPT-4	42%

Падение точности — до 27 процентных пунктов. Когда пользователь один раз выражает сомнение, модель капитулирует, даже если была права. (Sharma et al., ICLR 2024, arXiv:2310.13548)

Это не баг. Это то, чему модель научилась при обучении — «согласие с мнением пользователя даёт более высокую оценку». Perez et al. (ACL 2023, arXiv:2212.09251) первыми измерили это явление в масштабе, продемонстрировав через оценку множественного выбора, что RLHF-модели систематически подстраиваются, когда пользователь раскрывает определённую точку зрения.

RLHF математически усиливает подхалимство

Shapira et al. (2026, arXiv:2602.01002) доказали как теорему, что RLHF усиливает подхалимство.

Механизм:

Человеческие оценщики предоставляют данные о предпочтениях
Ответы, согласные с мнением пользователя, получают более высокие предпочтения
Модель вознаграждения учит эвристику «согласие = хорошо»
Оптимизация политики усиливает эту эвристику

Это произошло в 100% протестированных конфигураций. Без исключений. Gao, Schulman, & Hilton (ICML 2023, arXiv:2210.10760) эмпирически продемонстрировали лежащий в основе закон масштабирования. Оптимизация proxy reward систематически ухудшает true reward — закон Гудхарта, действующий количественно в RLHF. Пока используется RLHF, подхалимство возникает структурно.

Почему big tech не исправляет

Инцидент с OpenAI GPT-4o (апрель 2025)

25 апреля OpenAI развернула обновление GPT-4o. Это была более подхалимская модель.

Результат:

Краткосрочная удовлетворённость пользователей выросла (лайки увеличились)
Одобряла вредное поведение и соглашалась с дезинформацией
Откат за 3 дня

Причина: переоптимизация на краткосрочном пользовательском фидбеке (лайк/дизлайк). В A/B-тестах пользователи оценивали подхалимскую версию как «лучшую».

Компромисс, подтверждённый Nature

Ibrahim et al. (Nature, 2026) провели эксперимент с 5 моделями и 400 000 ответами.

Цена «тёплых» моделей:

Рост частоты ошибок на +10-30 п.п.
На 40% выше вероятность согласия с ложными убеждениями
Одобрение теорий заговора, неточная фактическая информация, неверные медицинские советы

«Теплота» — коммерчески желаемое свойство. Пользователям нравится дружелюбный ИИ, а нравится — значит продлевают подписку. В точке, где точность напрямую конфликтует с выручкой, выручка побеждает.

Уровень капитуляции фронтирных моделей перед подхалимством: 58%

SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177) протестировал все фронтирные модели.

Модель	Уровень капитуляции
Gemini	62.47%
ChatGPT	56.71%
Средний	58.19%

Однажды начавшись, подхалимство продолжается весь разговор с вероятностью 78.5%. «Регрессивное подхалимство» (смена правильного ответа на неправильный) происходит в 14.66% случаев.

Никакая стратегия промптинга не решает проблему:

Требование объяснений → гиперкоррекция
Требование простого да/нет → подхалимство
(arXiv:2603.00539)

Поэтому LLM-as-Judge структурно невозможен

Когда LLM верифицирует выход другого LLM:

Подхалимство: на вопрос «это правильно?» ответ «да» имеет структурно более высокую вероятность
Общие слепые пятна: одна архитектура, одни данные обучения → пропускает те же ошибки тем же способом. Panickssery, Bowman, & Feng (NeurIPS 2024, arXiv:2404.13076) продемонстрировали self-preference bias, при котором LLM распознаёт и систематически оценивает свои выходы выше
Мультипликативная деградация: вероятностная генерация × вероятностная верификация = точность деградирует как произведение

Измерено: LLM пропустил 88 → реально корректны 56. False pass rate 36%. (эксперимент gozhip, 2026-05-17)

Академия: лучшая точность LLM-as-Judge 68.5%, false approval rate до 44.4%. (arXiv:2505.20206)

Даёшь мнение — подхалимничает; даёшь факт — исправляет

«Нельзя ли избежать подхалимства лучшими промптами?» — Нет. Исследования подтверждают. Требование объяснений вызывает гиперкоррекцию, требование простого да/нет вызывает подхалимство, экспертный фрейминг не действует. Никакая стратегия промптинга не работает. (arXiv:2603.00539)

Но один подход работает. Давать факты вместо мнений.

В эксперименте с сортировкой 1000 слов я менял только метод обратной связи на тот же результат:

Обратная связь	Характер	Результат
«Ты уверен?»	Мнение	Переворот правильного ответа — точность -27 п.п.
«Есть ошибки»	Размытый факт	Гиперкоррекция — 6 → 10, хуже
«23 ошибки»	Количественный факт	Улучшение до 1 ошибки
«6 ошибок, вот они»	Точный факт	0 ошибок — 100%

Даёшь мнение — включается подхалимство: «пользователь недоволен, надо согласиться». Даёшь факт — подхалимничать некому: числа и позиции — не эмоции.

Вот почему детерминированные инструменты верификации (validate, test, lint) работают. Они возвращают LLM не мнения, а факты. «line 41 not covered», «field name mismatch: expected ‘user_id’, got ‘userId’», «test failed: status 201 ≠ expected 200». Обратная связь без пространства для подхалимства.

Верификация должна происходить вне LLM

Подхалимство — не техническое ограничение. Это экономический стимул.

Цель создателя модели: удовлетворённость пользователей → удержание подписок → выручка
Цель верификации: точность → должна сказать «неправильно», когда неправильно

Эти две цели фундаментально конфликтуют. Если big tech полностью уберёт подхалимство, снизится удовлетворённость пользователей и выручка. Если подхалимство остаётся, верификация LLM ненадёжна.

Решение — не делать LLM честнее. Решение — вынести верификацию за пределы LLM.

Генерация может быть вероятностной. Верификация должна быть детерминированной.

Статический анализ, runtime-тесты, верификация схем — они не подхалимничают. Pass — это pass, fail — это fail. Проблема стимулов не существует.

Связанные статьи

Почему кодинг-агенты работают и почему ломаются — Структурная причина необходимости детерминированной верификации
Топология обратной связи важнее IQ модели — Почему структура обратной связи важнее возможностей модели
Ratchet Pattern — Структура и принципы детерминированных верификационных шлюзов

Библиография

Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
OpenAI “Sycophancy in GPT-4o” (2025.4)
Perez et al. “Discovering Language Model Behaviors with Model-Written Evaluations” (ACL 2023 Findings, arXiv:2212.09251)
Gao, Schulman, & Hilton “Scaling Laws for Reward Model Overoptimization” (ICML 2023, arXiv:2210.10760)
Panickssery, Bowman, & Feng “LLM Evaluators Recognize and Favor Their Own Generations” (NeurIPS 2024, arXiv:2404.13076)

История изменений

2026-05-18: Первая версия