
Dicas de Ouro
Pergunta “o codigo ta bom?” = bajulacao. “Execute hurl –test e me diga o resultado” = fatos.
Criterio: “A maquina pode julgar este output?” Sim = verificador. Nao = prompt.
Bajulacao e feita assim
RLHF treina: concordar com usuario = nota alta. Taxa media de capitulacao 58%. Persiste 78.5%.
IFEval ao contrario — defeito vira ativo
IFEval alto = segue instrucoes bem = bajula bem. Mas com fatos deterministicos: “linha 41: erro” -> “sim, vou corrigir” (aceitacao). Mesmo vies. Alimento diferente.
Por isso o ratchet funciona
Vies de bajulacao fecha o loop. LLM aceita feedback deterministico sem resistir. Se nao houvesse vies de bajulacao e o LLM insistisse no proprio argumento, o loop nao convergiria.
Proporcao aurea: Prompt vs Verificador
Prompt da direcao (80 pontos). Verificador eleva a 100. O que a maquina pode julgar -> verificador. O que nao pode -> prompt.
Verificador quebra degradacao multiplicativa
Sem verificador: 97.7%^100 = 4.8%. Com verificador a cada etapa: cada etapa 100%.
Artigos Relacionados
Curso Completo de Reins Engineering
| Aula | Titulo |
|---|---|
| Aula 1 | Como Comandar a IA |
| Aula 2 | Como Nao Confiar na IA |
| Aula 3 | O App que Nao Quebra |
| Aula 4 | Decisoes Fora do Codigo |
| Aula 5 | IA com Redeas |
| Aula 6 | Passou, Trava |
| Aula 7 | Como Reverter a Bajulacao |
| Aula 8 | A Fabrica do Agente |
| Aula 9 | Automacao Alem do Codigo |
| Aula 10 | A Lei dos Dados |