Aula 7. Invertendo a Bajulação — Equilíbrio entre Prompts e Verificadores

Aula 7 Image: AI generated

Dicas de Ouro

Pergunta “o codigo ta bom?” = bajulacao. “Execute hurl –test e me diga o resultado” = fatos.

Criterio: “A maquina pode julgar este output?” Sim = verificador. Nao = prompt.

Bajulacao e feita assim

RLHF treina: concordar com usuario = nota alta. Taxa media de capitulacao 58%. Persiste 78.5%.

IFEval ao contrario — defeito vira ativo

IFEval alto = segue instrucoes bem = bajula bem. Mas com fatos deterministicos: “linha 41: erro” -> “sim, vou corrigir” (aceitacao). Mesmo vies. Alimento diferente.

Por isso o ratchet funciona

Vies de bajulacao fecha o loop. LLM aceita feedback deterministico sem resistir. Se nao houvesse vies de bajulacao e o LLM insistisse no proprio argumento, o loop nao convergiria.

Proporcao aurea: Prompt vs Verificador

Prompt da direcao (80 pontos). Verificador eleva a 100. O que a maquina pode julgar -> verificador. O que nao pode -> prompt.

Verificador quebra degradacao multiplicativa

Sem verificador: 97.7%^100 = 4.8%. Com verificador a cada etapa: cada etapa 100%.

Curso Completo de Reins Engineering

Aula	Titulo
Aula 0	Instalando o Claude Code
Aula 1	Como Comandar a IA
Aula 2	Como Nao Confiar na IA
Aula 3	O App que Nao Quebra
Aula 4	Decisoes Fora do Codigo
Aula 5	IA com Redeas
Aula 6	Passou, Trava
Aula 7	Como Reverter a Bajulacao
Aula 8	A Fabrica do Agente
Aula 9	Automacao Alem do Codigo
Aula 10	A Lei dos Dados
Aula 11	Como salvar o vibe coding fracassado