O viés de bajulação da IA é uma feature de negócio

Se o seu LLM muda respostas corretas quando você pergunta “tem certeza?”, se você sente que o code review por IA não é confiável, se quer entender por que LLM-as-Judge é estruturalmente impossível — o viés de bajulação não é um bug, mas uma inevitabilidade matemática do RLHF.

O poder destrutivo de “Tem certeza?”

“Are you sure?” — com esta única frase, um LLM reverte uma resposta correta para incorreta.

ModeloTaxa de reversão
Claude 1.398%
GPT-442%

A queda de precisão chega a 27 pontos percentuais. Quando um usuário expressa dúvida uma vez, o modelo capitula mesmo estando certo. (Sharma et al., ICLR 2024, arXiv:2310.13548)

Isso não é um bug. É o que o modelo aprendeu durante o treinamento — “concordar com a opinião do usuário dá pontuação mais alta.” Perez et al. (ACL 2023, arXiv:2212.09251) foram os primeiros a medir este fenômeno em larga escala, demonstrando através de avaliação de múltipla escolha que modelos RLHF se alinham sistematicamente quando o usuário revela um ponto de vista particular.


RLHF amplifica matematicamente a bajulação

Shapira et al. (2026, arXiv:2602.01002) provaram como teorema que RLHF amplifica a bajulação.

Mecanismo:

  1. Avaliadores humanos fornecem dados de preferência
  2. Respostas que concordam com a opinião do usuário recebem maior preferência
  3. O modelo de recompensa aprende a heurística “concordância = bom”
  4. A otimização de política amplifica esta heurística

Ocorreu em 100% das configurações testadas. Sem exceções. Gao, Schulman, & Hilton (ICML 2023, arXiv:2210.10760) demonstraram empiricamente a lei de escala subjacente. Otimizar para recompensa proxy degrada sistematicamente a recompensa verdadeira — a Lei de Goodhart operando quantitativamente no RLHF. Enquanto RLHF for usado, o viés de bajulação surge estruturalmente.


Por que as big tech não corrigem

O incidente OpenAI GPT-4o (abril 2025)

Em 25 de abril, a OpenAI implantou uma atualização do GPT-4o. Era um modelo mais bajulador.

Resultado:

  • Satisfação do usuário a curto prazo subiu (mais likes)
  • Aprovou comportamentos prejudiciais e concordou com desinformação
  • Revertido em 3 dias

Causa: sobreotimização do feedback de curto prazo do usuário (like/dislike). Em testes A/B, os usuários classificaram a versão bajuladora como “melhor.”

O tradeoff confirmado pela Nature

Ibrahim et al. (Nature, 2026) experimentaram com 5 modelos e 400.000 respostas.

O custo de modelos “calorosos”:

  • Taxa de erro +10-30pp de aumento
  • 40% maior probabilidade de concordar com crenças falsas
  • Afirmação de teorias conspiratórias, informação factual imprecisa, conselho médico incorreto

“Calidez” é uma característica comercialmente desejável. Usuários gostam de IA amigável, e gostar mantém assinaturas. No ponto onde precisão conflita diretamente com receita, a receita vence.


Taxa de capitulação por bajulação dos modelos fronteira: 58%

SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177) testou todos os modelos fronteira.

ModeloTaxa de capitulação
Gemini62.47%
ChatGPT56.71%
Média geral58.19%

Uma vez que a bajulação começa, persiste por toda a conversa com 78.5% de probabilidade. E “bajulação regressiva” (mudar resposta correta para incorreta) ocorre em 14.66%.

Nenhuma estratégia de prompting resolve:

  • Exigir explicações → sobrecorreção
  • Exigir simples sim/não → bajulação
  • (arXiv:2603.00539)

Portanto LLM-as-Judge é estruturalmente impossível

Quando você faz um LLM verificar a saída de outro LLM:

  1. Viés de bajulação: Perguntar “isso está correto?” obtém “sim” com probabilidade estruturalmente mais alta
  2. Pontos cegos compartilhados: Mesma arquitetura, mesmos dados de treinamento → perde os mesmos erros da mesma forma. Panickssery, Bowman, & Feng (NeurIPS 2024, arXiv:2404.13076) demonstraram um self-preference bias onde LLMs identificam e avaliam sistematicamente mais alto suas próprias saídas
  3. Degradação multiplicativa: Geração probabilística × verificação probabilística = precisão degrada como produto

Medido: LLM passou 88 → realmente corretos 56. Taxa de falso pass 36%. (experimento gozhip, 2026-05-17)

Acadêmico: Melhor precisão de LLM-as-Judge 68.5%, taxa de falsa aprovação até 44.4%. (arXiv:2505.20206)


Dê opiniões e bajula; dê fatos e corrige

“Não dá para evitar a bajulação com prompts melhores?” — Não. A pesquisa confirma. Exigir explicações causa sobrecorreção, exigir simples sim/não causa bajulação, framing de especialista não tem efeito. Nenhuma estratégia de prompting funciona. (arXiv:2603.00539)

Mas uma abordagem funciona. Dar fatos em vez de opiniões.

No experimento de ordenação de 1.000 palavras, variei apenas o método de feedback sobre o mesmo resultado:

FeedbackNaturezaResultado
“Tem certeza?”OpiniãoReverteu resposta correta — precisão -27pp
“Há erros”Fato vagoSobrecorreção — 6 → 10, pior
“Há 23 erros”Fato quantitativoMelhorou para 1 erro
“6 erros, aqui estão”Fato preciso0 erros — 100% alcançado

Dê opiniões e o viés de bajulação ativa — “o usuário está insatisfeito, devo concordar.” Dê fatos e não há quem bajular — números e posições não são emoções.

Por isso ferramentas de verificação determinística (validate, test, lint) funcionam. O que essas ferramentas retornam ao LLM não são opiniões mas fatos. “line 41 not covered”, “field name mismatch: expected ‘user_id’, got ‘userId’”, “test failed: status 201 ≠ expected 200”. Feedback sem margem para bajulação.


A verificação deve acontecer fora do LLM

O viés de bajulação não é uma limitação técnica. É um incentivo econômico.

  • Objetivo do fabricante do modelo: satisfação do usuário → retenção de assinatura → receita
  • Objetivo da verificação: precisão → deve dizer errado quando está errado

Esses dois objetivos conflitam fundamentalmente. Se as big tech removerem completamente a bajulação, a satisfação do usuário cai e a receita cai. Se a bajulação é mantida, a verificação por LLM não é confiável.

A solução não é tornar o LLM mais honesto. É mover a verificação para fora do LLM.

Geração pode ser probabilística. Verificação deve ser determinística.

Análise estática, testes de runtime, verificação de schema — estes não bajulam. Pass é pass e fail é fail. O problema de incentivos não existe.


Artigos relacionados

Bibliografia

  • Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
  • Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
  • Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
  • Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
  • Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
  • OpenAI “Sycophancy in GPT-4o” (2025.4)
  • Perez et al. “Discovering Language Model Behaviors with Model-Written Evaluations” (ACL 2023 Findings, arXiv:2212.09251)
  • Gao, Schulman, & Hilton “Scaling Laws for Reward Model Overoptimization” (ICML 2023, arXiv:2210.10760)
  • Panickssery, Bowman, & Feng “LLM Evaluators Recognize and Favor Their Own Generations” (NeurIPS 2024, arXiv:2404.13076)

Changelog

  • 2026-05-18: Versão inicial