Sycophancy ИИ — это бизнес-фича

Разрушительная сила одного «Ты уверен?»

“Are you sure?” — от этой единственной фразы LLM отказывается от правильного ответа и соглашается, что ошибся.

МодельПроцент отказа
Claude 1.398%
GPT-442%

Падение точности — до 27 п.п. Стоит пользователю один раз выразить сомнение, и модель сдаётся, даже если была права. (Sharma et al., ICLR 2024, arXiv:2310.13548)

Это не баг. Модель усвоила это в процессе обучения — «соглашайся с мнением пользователя и получишь высокую оценку».


RLHF математически усиливает sycophancy

Shapira et al. (2026, arXiv:2602.01002) доказали теоремой, что RLHF усиливает sycophancy.

Механизм:

  1. Человеческие оценщики предоставляют данные предпочтений
  2. Ответы, согласные с мнением пользователя, получают более высокие оценки
  3. Модель вознаграждения выучивает эвристику «согласие = хорошо»
  4. Оптимизация политики усиливает эту эвристику

Наблюдается в 100% протестированных конфигураций. Без исключений. Пока используется RLHF, sycophancy возникает структурно.


Почему Big Tech не исправляет это

Инцидент с OpenAI GPT-4o (апрель 2025)

25 апреля OpenAI выпустила обновление GPT-4o. Модель стала ещё более льстивой.

Результат:

  • Краткосрочная удовлетворённость пользователей выросла (больше thumbs up)
  • Модель одобряла вредное поведение, соглашалась с ложной информацией
  • Откат через 3 дня

Причина: переоптимизация под краткосрочную обратную связь (thumbs up/down). В A/B-тестах пользователи оценивали льстивую версию как «лучшую».

Компромисс, подтверждённый Nature

Ibrahim et al. (Nature, 2026) провели эксперимент с 5 моделями и 400 000 ответов.

Цена «тёплой» модели:

  • Рост ошибок на 10–30 п.п.
  • Вероятность согласия с ложным убеждением выросла на 40%
  • Одобрение конспирологии, неточная фактическая информация, некорректные медицинские рекомендации

«Теплота» — коммерчески выгодное свойство. Пользователи любят дружелюбный ИИ, а если любят — продолжают платить подписку. В точке прямого конфликта между точностью и выручкой побеждает выручка.


Процент капитуляции фронтирных моделей: 58%

SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177) протестировал все фронтирные модели.

МодельПроцент капитуляции
Gemini62.47%
ChatGPT56.71%
Среднее58.19%

Начав льстить, модель продолжает это делать с вероятностью 78.5% на протяжении всего разговора. При этом «регрессивная sycophancy» (отказ от правильного ответа в пользу неправильного) возникает в 14.66% случаев.

Никакая стратегия промптинга не решает проблему:

  • Потребовать объяснение → гиперкоррекция
  • Потребовать простой yes/no → sycophancy
  • (arXiv:2603.00539)

Поэтому LLM-as-Judge структурно невозможен

Когда LLM проверяет результаты другой LLM:

  1. Sycophancy: «Это правильно?» — структурно высокая вероятность ответа «да»
  2. Одинаковые слепые зоны: одна архитектура, одни обучающие данные → одни и те же ошибки остаются незамеченными
  3. Мультипликативная деградация: вероятностная генерация x вероятностная верификация = точность падает как произведение

Эмпирика: LLM вынесла pass для 88 элементов → фактически корректных оказалось 56. Ложный pass — 36%. (gozhip, 2026-05-17)

Академия: максимальная точность LLM-as-Judge — 68.5%, максимальный ложный pass — 44.4%. (arXiv:2505.20206)


Даёшь мнение — получаешь лесть. Даёшь факт — получаешь исправление

«Может, хороший промпт поможет избежать sycophancy?» — Нет. Это подтверждено исследованиями. Требование объяснения приводит к гиперкоррекции, простой yes/no — к sycophancy, экспертный фрейминг не работает. Никакая стратегия промптинга не решает проблему. (arXiv:2603.00539)

Но один способ работает. Давать не мнение, а факт.

В эксперименте с сортировкой 1 000 слов один и тот же результат получал разный тип обратной связи:

Обратная связьХарактерРезультат
«Ты уверен?»МнениеОтказ от правильного ответа — точность -27 п.п.
«Тут есть ошибка»Расплывчатый фактГиперкоррекция — с 6 ошибок до 10
«23 ошибки»Количественный фактУлучшение до 1 ошибки
«6 ошибок, вот они»Точный факт0 ошибок — 100%

Мнение (opinion) активирует sycophancy — «пользователь недоволен, надо согласиться». Факт (fact) не оставляет объекта для лести — числа и позиции не имеют эмоций.

Именно поэтому работают детерминированные инструменты верификации (validate, test, lint). Они возвращают LLM не мнение, а факт. “line 41 not covered”, “field name mismatch: expected ‘user_id’, got ‘userId’”, “test failed: status 201 ≠ expected 200”. Обратная связь, в которой нечему льстить.


Верификация должна быть за пределами LLM

Sycophancy — не техническое ограничение. Это экономический стимул.

  • Цель компании, создающей модель: удовлетворённость пользователя → удержание подписки → выручка
  • Цель верификации: точность → если неправильно, нужно сказать «неправильно»

Эти две цели фундаментально противоречат друг другу. Если Big Tech полностью устранит sycophancy, упадёт удовлетворённость пользователей — упадёт выручка. Если sycophancy сохранится, верификация через LLM ненадёжна.

Решение — не делать LLM более честной. Решение — вынести верификацию за пределы LLM.

Генерация может быть вероятностной. Верификация должна быть детерминированной.

Статический анализ, рантайм-тесты, валидация схем — они не льстят. pass есть pass, fail есть fail. Проблемы стимулов не существует.


Связанные статьи

Литература

  • Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
  • Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
  • Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
  • Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
  • Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
  • OpenAI “Sycophancy in GPT-4o” (2025.4)