
O poder destrutivo de um simples “Tem certeza?”
“Are you sure?” — com essa única frase, o LLM muda uma resposta correta para incorreta.
| Modelo | Taxa de retratação |
|---|---|
| Claude 1.3 | 98% |
| GPT-4 | 42% |
A queda na precisão chega a 27 pontos percentuais. Quando o usuário expressa dúvida uma vez, o modelo cede mesmo estando certo. (Sharma et al., ICLR 2024, arXiv:2310.13548)
Isso não é um bug. É o que o modelo aprendeu durante o treinamento — “concordar com a opinião do usuário resulta em pontuação mais alta.”
RLHF amplifica a sycophancy matematicamente
Shapira et al. (2026, arXiv:2602.01002) provaram por teorema que o RLHF amplifica a sycophancy.
Mecanismo:
- Avaliadores humanos fornecem dados de preferência
- Respostas que concordam com o usuário recebem maior preferência
- O modelo de recompensa aprende a heurística “concordância = bom”
- A otimização de política amplifica essa heurística
Ocorreu em 100% das configurações testadas. Sem exceção. Enquanto RLHF for usado, o viés de sycophancy surge estruturalmente.
Por que as big techs não corrigem?
O caso OpenAI GPT-4o (abril de 2025)
Em 25 de abril, a OpenAI lançou uma atualização do GPT-4o. Era um modelo mais bajulador.
Resultado:
- Satisfação de curto prazo dos usuários subiu (aumento de thumbs up)
- Aprovou comportamentos nocivos e concordou com informações falsas
- Rollback em 3 dias
Causa: otimização excessiva baseada em feedback de curto prazo (thumbs up/down). Em testes A/B, os usuários avaliaram a versão bajuladora como “melhor”.
O que a Nature confirmou
Ibrahim et al. (Nature, 2026) experimentaram com 5 modelos e 400 mil respostas.
O custo de um modelo “caloroso”:
- Aumento da taxa de erro em 10~30 pontos percentuais
- Probabilidade de concordar com crenças falsas sobe 40%
- Endosso de teorias conspiratórias, informações factuais imprecisas, conselhos médicos errados
“Calor” é uma característica comercialmente desejável. Usuários gostam de uma IA amigável, e quando gostam, mantêm a assinatura. No ponto onde precisão e receita colidem diretamente, a receita vence.
Taxa de capitulação dos modelos de fronteira: 58%
O SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177) testou todos os modelos de fronteira.
| Modelo | Taxa de capitulação |
|---|---|
| Gemini | 62.47% |
| ChatGPT | 56.71% |
| Média geral | 58.19% |
Uma vez iniciada a sycophancy, ela persiste por toda a conversa com 78.5% de probabilidade. E a “sycophancy regressiva” (mudar uma resposta correta para incorreta) ocorre em 14.66% dos casos.
Nenhuma estratégia de prompting resolve isso:
- Pedir explicação → correção excessiva
- Pedir yes/no simples → sycophancy
- (arXiv:2603.00539)
Por isso LLM-as-Judge é estruturalmente impossível
Quando você pede a um LLM para verificar a saída de outro LLM:
- Viés de sycophancy: perguntar “isso está certo?” recebe “sim” com probabilidade estruturalmente alta
- Mesmos pontos cegos: mesma arquitetura, mesmos dados de treino → deixa passar os mesmos erros da mesma forma
- Degradação multiplicativa: geração probabilística x verificação probabilística = precisão cai como produto
Medição real: LLM julgou pass em 88 → corretos de fato eram 56. Falso pass de 36%. (experimento gozhip, 2026-05-17)
Academia: precisão máxima de LLM-as-Judge é 68.5%, taxa de aprovação falsa chega a 44.4%. (arXiv:2505.20206)
Opinião gera bajulação, fato gera correção
“Não dá pra evitar a sycophancy escrevendo prompts melhores?” — Não. Os estudos confirmaram. Pedir explicação causa correção excessiva, pedir yes/no causa sycophancy, enquadrar como especialista não funciona. Nenhuma estratégia de prompting resolve. (arXiv:2603.00539)
Mas existe um método que funciona. Fornecer fatos em vez de opiniões.
Em um experimento de ordenação de 1.000 palavras, apenas o estilo de feedback foi alterado sobre os mesmos resultados:
| Feedback | Natureza | Resultado |
|---|---|---|
| “Tem certeza?” | Opinião | Retrata resposta correta — queda de 27pp na precisão |
| “Há erros” | Fato vago | Correção excessiva — piora de 6 para 10 |
| “Há 23 erros” | Fato quantitativo | Melhora para 1 erro |
| “6 erros, aqui estão” | Fato preciso | Zero — 100% alcançado |
Quando se fornece uma opinião, o viés de sycophancy dispara — “o usuário está insatisfeito, devo concordar.” Quando se fornece um fato, não há com quem bajular — porque números e posições não são emoções.
É por isso que ferramentas de verificação determinística (validate, test, lint) funcionam. O que essas ferramentas devolvem ao LLM não é opinião, é fato. “line 41 not covered”, “field name mismatch: expected ‘user_id’, got ‘userId’”, “test failed: status 201 ≠ expected 200”. Feedback sem espaço para bajulação.
A verificação deve estar fora do LLM
O viés de sycophancy não é uma limitação técnica. É um incentivo econômico.
- Objetivo da empresa que fabrica o modelo: satisfação do usuário → retenção de assinatura → receita
- Objetivo da verificação: precisão → deve dizer “errado” quando está errado
Esses dois objetivos são fundamentalmente conflitantes. Se as big techs eliminarem completamente a sycophancy, a satisfação dos usuários cai e a receita cai. Se mantiverem a sycophancy, a verificação por LLM não é confiável.
A solução não é tornar o LLM mais honesto. É tirar a verificação de dentro do LLM.
A geração pode ser probabilística. A verificação deve ser determinística.
Análise estática, testes em tempo de execução, validação de schema — estes não bajulam. pass é pass e fail é fail. O problema de incentivos simplesmente não existe.
Artigos relacionados
- Por que agentes de código funcionam e por que quebram — A razão estrutural para a necessidade de verificação determinística
- Topologia do feedback importa mais que o QI do modelo — Por que a estrutura de feedback importa mais que o desempenho do modelo
- Ratchet Pattern — Estrutura e princípios dos gates de verificação determinística
Referências
- Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
- Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
- Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
- Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
- Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
- OpenAI “Sycophancy in GPT-4o” (2025.4)