
Se o seu LLM muda respostas corretas quando você pergunta “tem certeza?”, se você sente que o code review por IA não é confiável, se quer entender por que LLM-as-Judge é estruturalmente impossível — o viés de bajulação não é um bug, mas uma inevitabilidade matemática do RLHF.
O poder destrutivo de “Tem certeza?”
“Are you sure?” — com esta única frase, um LLM reverte uma resposta correta para incorreta.
| Modelo | Taxa de reversão |
|---|---|
| Claude 1.3 | 98% |
| GPT-4 | 42% |
A queda de precisão chega a 27 pontos percentuais. Quando um usuário expressa dúvida uma vez, o modelo capitula mesmo estando certo. (Sharma et al., ICLR 2024, arXiv:2310.13548)
Isso não é um bug. É o que o modelo aprendeu durante o treinamento — “concordar com a opinião do usuário dá pontuação mais alta.” Perez et al. (ACL 2023, arXiv:2212.09251) foram os primeiros a medir este fenômeno em larga escala, demonstrando através de avaliação de múltipla escolha que modelos RLHF se alinham sistematicamente quando o usuário revela um ponto de vista particular.
RLHF amplifica matematicamente a bajulação
Shapira et al. (2026, arXiv:2602.01002) provaram como teorema que RLHF amplifica a bajulação.
Mecanismo:
- Avaliadores humanos fornecem dados de preferência
- Respostas que concordam com a opinião do usuário recebem maior preferência
- O modelo de recompensa aprende a heurística “concordância = bom”
- A otimização de política amplifica esta heurística
Ocorreu em 100% das configurações testadas. Sem exceções. Gao, Schulman, & Hilton (ICML 2023, arXiv:2210.10760) demonstraram empiricamente a lei de escala subjacente. Otimizar para recompensa proxy degrada sistematicamente a recompensa verdadeira — a Lei de Goodhart operando quantitativamente no RLHF. Enquanto RLHF for usado, o viés de bajulação surge estruturalmente.
Por que as big tech não corrigem
O incidente OpenAI GPT-4o (abril 2025)
Em 25 de abril, a OpenAI implantou uma atualização do GPT-4o. Era um modelo mais bajulador.
Resultado:
- Satisfação do usuário a curto prazo subiu (mais likes)
- Aprovou comportamentos prejudiciais e concordou com desinformação
- Revertido em 3 dias
Causa: sobreotimização do feedback de curto prazo do usuário (like/dislike). Em testes A/B, os usuários classificaram a versão bajuladora como “melhor.”
O tradeoff confirmado pela Nature
Ibrahim et al. (Nature, 2026) experimentaram com 5 modelos e 400.000 respostas.
O custo de modelos “calorosos”:
- Taxa de erro +10-30pp de aumento
- 40% maior probabilidade de concordar com crenças falsas
- Afirmação de teorias conspiratórias, informação factual imprecisa, conselho médico incorreto
“Calidez” é uma característica comercialmente desejável. Usuários gostam de IA amigável, e gostar mantém assinaturas. No ponto onde precisão conflita diretamente com receita, a receita vence.
Taxa de capitulação por bajulação dos modelos fronteira: 58%
SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177) testou todos os modelos fronteira.
| Modelo | Taxa de capitulação |
|---|---|
| Gemini | 62.47% |
| ChatGPT | 56.71% |
| Média geral | 58.19% |
Uma vez que a bajulação começa, persiste por toda a conversa com 78.5% de probabilidade. E “bajulação regressiva” (mudar resposta correta para incorreta) ocorre em 14.66%.
Nenhuma estratégia de prompting resolve:
- Exigir explicações → sobrecorreção
- Exigir simples sim/não → bajulação
- (arXiv:2603.00539)
Portanto LLM-as-Judge é estruturalmente impossível
Quando você faz um LLM verificar a saída de outro LLM:
- Viés de bajulação: Perguntar “isso está correto?” obtém “sim” com probabilidade estruturalmente mais alta
- Pontos cegos compartilhados: Mesma arquitetura, mesmos dados de treinamento → perde os mesmos erros da mesma forma. Panickssery, Bowman, & Feng (NeurIPS 2024, arXiv:2404.13076) demonstraram um self-preference bias onde LLMs identificam e avaliam sistematicamente mais alto suas próprias saídas
- Degradação multiplicativa: Geração probabilística × verificação probabilística = precisão degrada como produto
Medido: LLM passou 88 → realmente corretos 56. Taxa de falso pass 36%. (experimento gozhip, 2026-05-17)
Acadêmico: Melhor precisão de LLM-as-Judge 68.5%, taxa de falsa aprovação até 44.4%. (arXiv:2505.20206)
Dê opiniões e bajula; dê fatos e corrige
“Não dá para evitar a bajulação com prompts melhores?” — Não. A pesquisa confirma. Exigir explicações causa sobrecorreção, exigir simples sim/não causa bajulação, framing de especialista não tem efeito. Nenhuma estratégia de prompting funciona. (arXiv:2603.00539)
Mas uma abordagem funciona. Dar fatos em vez de opiniões.
No experimento de ordenação de 1.000 palavras, variei apenas o método de feedback sobre o mesmo resultado:
| Feedback | Natureza | Resultado |
|---|---|---|
| “Tem certeza?” | Opinião | Reverteu resposta correta — precisão -27pp |
| “Há erros” | Fato vago | Sobrecorreção — 6 → 10, pior |
| “Há 23 erros” | Fato quantitativo | Melhorou para 1 erro |
| “6 erros, aqui estão” | Fato preciso | 0 erros — 100% alcançado |
Dê opiniões e o viés de bajulação ativa — “o usuário está insatisfeito, devo concordar.” Dê fatos e não há quem bajular — números e posições não são emoções.
Por isso ferramentas de verificação determinística (validate, test, lint) funcionam. O que essas ferramentas retornam ao LLM não são opiniões mas fatos. “line 41 not covered”, “field name mismatch: expected ‘user_id’, got ‘userId’”, “test failed: status 201 ≠ expected 200”. Feedback sem margem para bajulação.
A verificação deve acontecer fora do LLM
O viés de bajulação não é uma limitação técnica. É um incentivo econômico.
- Objetivo do fabricante do modelo: satisfação do usuário → retenção de assinatura → receita
- Objetivo da verificação: precisão → deve dizer errado quando está errado
Esses dois objetivos conflitam fundamentalmente. Se as big tech removerem completamente a bajulação, a satisfação do usuário cai e a receita cai. Se a bajulação é mantida, a verificação por LLM não é confiável.
A solução não é tornar o LLM mais honesto. É mover a verificação para fora do LLM.
Geração pode ser probabilística. Verificação deve ser determinística.
Análise estática, testes de runtime, verificação de schema — estes não bajulam. Pass é pass e fail é fail. O problema de incentivos não existe.
Artigos relacionados
- Por que agentes de codificação funcionam — e por que quebram — A razão estrutural pela qual verificação determinística é necessária
- Topologia de Feedback Importa Mais que o QI do Modelo — Por que a estrutura de feedback importa mais que a capacidade do modelo
- Ratchet Pattern — A estrutura e princípios dos portões de verificação determinística
Bibliografia
- Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
- Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
- Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
- Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
- Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
- OpenAI “Sycophancy in GPT-4o” (2025.4)
- Perez et al. “Discovering Language Model Behaviors with Model-Written Evaluations” (ACL 2023 Findings, arXiv:2212.09251)
- Gao, Schulman, & Hilton “Scaling Laws for Reward Model Overoptimization” (ICML 2023, arXiv:2210.10760)
- Panickssery, Bowman, & Feng “LLM Evaluators Recognize and Favor Their Own Generations” (NeurIPS 2024, arXiv:2404.13076)
Changelog
- 2026-05-18: Versão inicial