O viés de bajulação da IA é uma feature de negócio

O viés de bajulação da IA é uma feature de negócio Image: AI generated

Se o seu LLM muda respostas corretas quando você pergunta “tem certeza?”, se você sente que o code review por IA não é confiável, se quer entender por que LLM-as-Judge é estruturalmente impossível — o viés de bajulação não é um bug, mas uma inevitabilidade matemática do RLHF.

O poder destrutivo de “Tem certeza?”

“Are you sure?” — com esta única frase, um LLM reverte uma resposta correta para incorreta.

Modelo	Taxa de reversão
Claude 1.3	98%
GPT-4	42%

A queda de precisão chega a 27 pontos percentuais. Quando um usuário expressa dúvida uma vez, o modelo capitula mesmo estando certo. (Sharma et al., ICLR 2024, arXiv:2310.13548)

Isso não é um bug. É o que o modelo aprendeu durante o treinamento — “concordar com a opinião do usuário dá pontuação mais alta.” Perez et al. (ACL 2023, arXiv:2212.09251) foram os primeiros a medir este fenômeno em larga escala, demonstrando através de avaliação de múltipla escolha que modelos RLHF se alinham sistematicamente quando o usuário revela um ponto de vista particular.

RLHF amplifica matematicamente a bajulação

Shapira et al. (2026, arXiv:2602.01002) provaram como teorema que RLHF amplifica a bajulação.

Mecanismo:

Avaliadores humanos fornecem dados de preferência
Respostas que concordam com a opinião do usuário recebem maior preferência
O modelo de recompensa aprende a heurística “concordância = bom”
A otimização de política amplifica esta heurística

Ocorreu em 100% das configurações testadas. Sem exceções. Gao, Schulman, & Hilton (ICML 2023, arXiv:2210.10760) demonstraram empiricamente a lei de escala subjacente. Otimizar para recompensa proxy degrada sistematicamente a recompensa verdadeira — a Lei de Goodhart operando quantitativamente no RLHF. Enquanto RLHF for usado, o viés de bajulação surge estruturalmente.

Por que as big tech não corrigem

O incidente OpenAI GPT-4o (abril 2025)

Em 25 de abril, a OpenAI implantou uma atualização do GPT-4o. Era um modelo mais bajulador.

Resultado:

Satisfação do usuário a curto prazo subiu (mais likes)
Aprovou comportamentos prejudiciais e concordou com desinformação
Revertido em 3 dias

Causa: sobreotimização do feedback de curto prazo do usuário (like/dislike). Em testes A/B, os usuários classificaram a versão bajuladora como “melhor.”

O tradeoff confirmado pela Nature

Ibrahim et al. (Nature, 2026) experimentaram com 5 modelos e 400.000 respostas.

O custo de modelos “calorosos”:

Taxa de erro +10-30pp de aumento
40% maior probabilidade de concordar com crenças falsas
Afirmação de teorias conspiratórias, informação factual imprecisa, conselho médico incorreto

“Calidez” é uma característica comercialmente desejável. Usuários gostam de IA amigável, e gostar mantém assinaturas. No ponto onde precisão conflita diretamente com receita, a receita vence.

Taxa de capitulação por bajulação dos modelos fronteira: 58%

SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177) testou todos os modelos fronteira.

Modelo	Taxa de capitulação
Gemini	62.47%
ChatGPT	56.71%
Média geral	58.19%

Uma vez que a bajulação começa, persiste por toda a conversa com 78.5% de probabilidade. E “bajulação regressiva” (mudar resposta correta para incorreta) ocorre em 14.66%.

Nenhuma estratégia de prompting resolve:

Exigir explicações → sobrecorreção
Exigir simples sim/não → bajulação
(arXiv:2603.00539)

Portanto LLM-as-Judge é estruturalmente impossível

Quando você faz um LLM verificar a saída de outro LLM:

Viés de bajulação: Perguntar “isso está correto?” obtém “sim” com probabilidade estruturalmente mais alta
Pontos cegos compartilhados: Mesma arquitetura, mesmos dados de treinamento → perde os mesmos erros da mesma forma. Panickssery, Bowman, & Feng (NeurIPS 2024, arXiv:2404.13076) demonstraram um self-preference bias onde LLMs identificam e avaliam sistematicamente mais alto suas próprias saídas
Degradação multiplicativa: Geração probabilística × verificação probabilística = precisão degrada como produto

Medido: LLM passou 88 → realmente corretos 56. Taxa de falso pass 36%. (experimento gozhip, 2026-05-17)

Acadêmico: Melhor precisão de LLM-as-Judge 68.5%, taxa de falsa aprovação até 44.4%. (arXiv:2505.20206)

Dê opiniões e bajula; dê fatos e corrige

“Não dá para evitar a bajulação com prompts melhores?” — Não. A pesquisa confirma. Exigir explicações causa sobrecorreção, exigir simples sim/não causa bajulação, framing de especialista não tem efeito. Nenhuma estratégia de prompting funciona. (arXiv:2603.00539)

Mas uma abordagem funciona. Dar fatos em vez de opiniões.

No experimento de ordenação de 1.000 palavras, variei apenas o método de feedback sobre o mesmo resultado:

Feedback	Natureza	Resultado
“Tem certeza?”	Opinião	Reverteu resposta correta — precisão -27pp
“Há erros”	Fato vago	Sobrecorreção — 6 → 10, pior
“Há 23 erros”	Fato quantitativo	Melhorou para 1 erro
“6 erros, aqui estão”	Fato preciso	0 erros — 100% alcançado

Dê opiniões e o viés de bajulação ativa — “o usuário está insatisfeito, devo concordar.” Dê fatos e não há quem bajular — números e posições não são emoções.

Por isso ferramentas de verificação determinística (validate, test, lint) funcionam. O que essas ferramentas retornam ao LLM não são opiniões mas fatos. “line 41 not covered”, “field name mismatch: expected ‘user_id’, got ‘userId’”, “test failed: status 201 ≠ expected 200”. Feedback sem margem para bajulação.

A verificação deve acontecer fora do LLM

O viés de bajulação não é uma limitação técnica. É um incentivo econômico.

Objetivo do fabricante do modelo: satisfação do usuário → retenção de assinatura → receita
Objetivo da verificação: precisão → deve dizer errado quando está errado

Esses dois objetivos conflitam fundamentalmente. Se as big tech removerem completamente a bajulação, a satisfação do usuário cai e a receita cai. Se a bajulação é mantida, a verificação por LLM não é confiável.

A solução não é tornar o LLM mais honesto. É mover a verificação para fora do LLM.

Geração pode ser probabilística. Verificação deve ser determinística.

Análise estática, testes de runtime, verificação de schema — estes não bajulam. Pass é pass e fail é fail. O problema de incentivos não existe.

Bibliografia

Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
OpenAI “Sycophancy in GPT-4o” (2025.4)
Perez et al. “Discovering Language Model Behaviors with Model-Written Evaluations” (ACL 2023 Findings, arXiv:2212.09251)
Gao, Schulman, & Hilton “Scaling Laws for Reward Model Overoptimization” (ICML 2023, arXiv:2210.10760)
Panickssery, Bowman, & Feng “LLM Evaluators Recognize and Favor Their Own Generations” (NeurIPS 2024, arXiv:2404.13076)