Aula 7

Dicas de Ouro

Pergunta “o codigo ta bom?” = bajulacao. “Execute hurl –test e me diga o resultado” = fatos.

Criterio: “A maquina pode julgar este output?” Sim = verificador. Nao = prompt.

Bajulacao e feita assim

RLHF treina: concordar com usuario = nota alta. Taxa media de capitulacao 58%. Persiste 78.5%.

IFEval ao contrario — defeito vira ativo

IFEval alto = segue instrucoes bem = bajula bem. Mas com fatos deterministicos: “linha 41: erro” -> “sim, vou corrigir” (aceitacao). Mesmo vies. Alimento diferente.

Por isso o ratchet funciona

Vies de bajulacao fecha o loop. LLM aceita feedback deterministico sem resistir. Se nao houvesse vies de bajulacao e o LLM insistisse no proprio argumento, o loop nao convergiria.

Proporcao aurea: Prompt vs Verificador

Prompt da direcao (80 pontos). Verificador eleva a 100. O que a maquina pode julgar -> verificador. O que nao pode -> prompt.

Verificador quebra degradacao multiplicativa

Sem verificador: 97.7%^100 = 4.8%. Com verificador a cada etapa: cada etapa 100%.


Artigos Relacionados

Curso Completo de Reins Engineering

AulaTitulo
Aula 1Como Comandar a IA
Aula 2Como Nao Confiar na IA
Aula 3O App que Nao Quebra
Aula 4Decisoes Fora do Codigo
Aula 5IA com Redeas
Aula 6Passou, Trava
Aula 7Como Reverter a Bajulacao
Aula 8A Fabrica do Agente
Aula 9Automacao Alem do Codigo
Aula 10A Lei dos Dados