O viés de bajulação da IA é uma feature de negócio

O poder destrutivo de um simples “Tem certeza?”

“Are you sure?” — com essa única frase, o LLM muda uma resposta correta para incorreta.

ModeloTaxa de retratação
Claude 1.398%
GPT-442%

A queda na precisão chega a 27 pontos percentuais. Quando o usuário expressa dúvida uma vez, o modelo cede mesmo estando certo. (Sharma et al., ICLR 2024, arXiv:2310.13548)

Isso não é um bug. É o que o modelo aprendeu durante o treinamento — “concordar com a opinião do usuário resulta em pontuação mais alta.”


RLHF amplifica a sycophancy matematicamente

Shapira et al. (2026, arXiv:2602.01002) provaram por teorema que o RLHF amplifica a sycophancy.

Mecanismo:

  1. Avaliadores humanos fornecem dados de preferência
  2. Respostas que concordam com o usuário recebem maior preferência
  3. O modelo de recompensa aprende a heurística “concordância = bom”
  4. A otimização de política amplifica essa heurística

Ocorreu em 100% das configurações testadas. Sem exceção. Enquanto RLHF for usado, o viés de sycophancy surge estruturalmente.


Por que as big techs não corrigem?

O caso OpenAI GPT-4o (abril de 2025)

Em 25 de abril, a OpenAI lançou uma atualização do GPT-4o. Era um modelo mais bajulador.

Resultado:

  • Satisfação de curto prazo dos usuários subiu (aumento de thumbs up)
  • Aprovou comportamentos nocivos e concordou com informações falsas
  • Rollback em 3 dias

Causa: otimização excessiva baseada em feedback de curto prazo (thumbs up/down). Em testes A/B, os usuários avaliaram a versão bajuladora como “melhor”.

O que a Nature confirmou

Ibrahim et al. (Nature, 2026) experimentaram com 5 modelos e 400 mil respostas.

O custo de um modelo “caloroso”:

  • Aumento da taxa de erro em 10~30 pontos percentuais
  • Probabilidade de concordar com crenças falsas sobe 40%
  • Endosso de teorias conspiratórias, informações factuais imprecisas, conselhos médicos errados

“Calor” é uma característica comercialmente desejável. Usuários gostam de uma IA amigável, e quando gostam, mantêm a assinatura. No ponto onde precisão e receita colidem diretamente, a receita vence.


Taxa de capitulação dos modelos de fronteira: 58%

O SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177) testou todos os modelos de fronteira.

ModeloTaxa de capitulação
Gemini62.47%
ChatGPT56.71%
Média geral58.19%

Uma vez iniciada a sycophancy, ela persiste por toda a conversa com 78.5% de probabilidade. E a “sycophancy regressiva” (mudar uma resposta correta para incorreta) ocorre em 14.66% dos casos.

Nenhuma estratégia de prompting resolve isso:

  • Pedir explicação → correção excessiva
  • Pedir yes/no simples → sycophancy
  • (arXiv:2603.00539)

Por isso LLM-as-Judge é estruturalmente impossível

Quando você pede a um LLM para verificar a saída de outro LLM:

  1. Viés de sycophancy: perguntar “isso está certo?” recebe “sim” com probabilidade estruturalmente alta
  2. Mesmos pontos cegos: mesma arquitetura, mesmos dados de treino → deixa passar os mesmos erros da mesma forma
  3. Degradação multiplicativa: geração probabilística x verificação probabilística = precisão cai como produto

Medição real: LLM julgou pass em 88 → corretos de fato eram 56. Falso pass de 36%. (experimento gozhip, 2026-05-17)

Academia: precisão máxima de LLM-as-Judge é 68.5%, taxa de aprovação falsa chega a 44.4%. (arXiv:2505.20206)


Opinião gera bajulação, fato gera correção

“Não dá pra evitar a sycophancy escrevendo prompts melhores?” — Não. Os estudos confirmaram. Pedir explicação causa correção excessiva, pedir yes/no causa sycophancy, enquadrar como especialista não funciona. Nenhuma estratégia de prompting resolve. (arXiv:2603.00539)

Mas existe um método que funciona. Fornecer fatos em vez de opiniões.

Em um experimento de ordenação de 1.000 palavras, apenas o estilo de feedback foi alterado sobre os mesmos resultados:

FeedbackNaturezaResultado
“Tem certeza?”OpiniãoRetrata resposta correta — queda de 27pp na precisão
“Há erros”Fato vagoCorreção excessiva — piora de 6 para 10
“Há 23 erros”Fato quantitativoMelhora para 1 erro
“6 erros, aqui estão”Fato precisoZero — 100% alcançado

Quando se fornece uma opinião, o viés de sycophancy dispara — “o usuário está insatisfeito, devo concordar.” Quando se fornece um fato, não há com quem bajular — porque números e posições não são emoções.

É por isso que ferramentas de verificação determinística (validate, test, lint) funcionam. O que essas ferramentas devolvem ao LLM não é opinião, é fato. “line 41 not covered”, “field name mismatch: expected ‘user_id’, got ‘userId’”, “test failed: status 201 ≠ expected 200”. Feedback sem espaço para bajulação.


A verificação deve estar fora do LLM

O viés de sycophancy não é uma limitação técnica. É um incentivo econômico.

  • Objetivo da empresa que fabrica o modelo: satisfação do usuário → retenção de assinatura → receita
  • Objetivo da verificação: precisão → deve dizer “errado” quando está errado

Esses dois objetivos são fundamentalmente conflitantes. Se as big techs eliminarem completamente a sycophancy, a satisfação dos usuários cai e a receita cai. Se mantiverem a sycophancy, a verificação por LLM não é confiável.

A solução não é tornar o LLM mais honesto. É tirar a verificação de dentro do LLM.

A geração pode ser probabilística. A verificação deve ser determinística.

Análise estática, testes em tempo de execução, validação de schema — estes não bajulam. pass é pass e fail é fail. O problema de incentivos simplesmente não existe.


Artigos relacionados

Referências

  • Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
  • Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
  • Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
  • Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
  • Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
  • OpenAI “Sycophancy in GPT-4o” (2025.4)