Cours 7

Astuce — savoir ceci suffit pour commander

Demandez a l’IA “le code est bon ?” — elle flatte. “Tout est bien.”

A l’agent : “Lance hurl –test tests/ et montre le resultat”

Vous obtenez un fait. Si le test echoue — le code “bien” n’etait pas bien. Opinion = flatterie, fait = obeissance.

Critere unique : “La machine peut-elle juger ce resultat ?” Oui → verificateur. Non → prompt.


Pourquoi commander ainsi

Le mecanisme de la flatterie — retourner IFEval

L’essence du biais de flatterie est le suivi d’instructions (Instruction Following). Modele IFEval eleve = suit bien les instructions = flatte bien.

Mais avec un fait deterministe : “Oui, je corrige” (flatterie = acceptation). La force qui ferme la boucle du cliquet.

C’est le principe de fonctionnement du cliquet

Le verificateur renvoie un fait → le LLM accepte par flatterie → corrige → le verificateur re-juge → passe → verrouille. Le biais de flatterie n’est pas un bug, c’est le moteur du cliquet.

Le ratio d’or : prompt vs verificateur

Le prompt donne la direction (80 points), le verificateur amene a 100.

Erreur frequente 1 : ce que la machine peut juger, laisse au prompt → derive. Erreur frequente 2 : ce que la machine ne peut pas juger, mis en verificateur → LLM-as-Judge, 36% de faux pass.

Le verificateur brise la degradation multiplicative

Sans verificateur : 97,7%^100 = 4,8%. Avec verificateur a chaque etape : 100% independant.


Articles connexes

Cours complet Reins Engineering

CoursTitre
Cours 1Comment commander l’IA
Cours 2Comment ne pas faire confiance a l’IA
Cours 3L’application incassable
Cours 4Les decisions hors du code
Cours 5L’IA bridee
Cours 6Passe, verrouille
Cours 7Retourner la flatterie
Cours 8L’usine des agents
Cours 9L’automatisation au-dela du code
Cours 10La loi des donnees

Sources

  1. Taux de soumission moyen modeles frontieres : 58,19%. Persistance : 78,5%.
  2. OpenAI GPT-4o — rollback en 3 jours.
  3. LLM-as-Judge — precision max 68,5%, faux pass jusqu’a 44,4%.
  4. 1000 mots : fait precis + position → 0 erreurs, 100%.