
Astuce — savoir ceci suffit pour commander
Demandez a l’IA “le code est bon ?” — elle flatte. “Tout est bien.”
A l’agent : “Lance hurl –test tests/ et montre le resultat”
Vous obtenez un fait. Si le test echoue — le code “bien” n’etait pas bien. Opinion = flatterie, fait = obeissance.
Critere unique : “La machine peut-elle juger ce resultat ?” Oui → verificateur. Non → prompt.
Pourquoi commander ainsi
Le mecanisme de la flatterie — retourner IFEval
L’essence du biais de flatterie est le suivi d’instructions (Instruction Following). Modele IFEval eleve = suit bien les instructions = flatte bien.
Mais avec un fait deterministe : “Oui, je corrige” (flatterie = acceptation). La force qui ferme la boucle du cliquet.
C’est le principe de fonctionnement du cliquet
Le verificateur renvoie un fait → le LLM accepte par flatterie → corrige → le verificateur re-juge → passe → verrouille. Le biais de flatterie n’est pas un bug, c’est le moteur du cliquet.
Le ratio d’or : prompt vs verificateur
Le prompt donne la direction (80 points), le verificateur amene a 100.
Erreur frequente 1 : ce que la machine peut juger, laisse au prompt → derive. Erreur frequente 2 : ce que la machine ne peut pas juger, mis en verificateur → LLM-as-Judge, 36% de faux pass.
Le verificateur brise la degradation multiplicative
Sans verificateur : 97,7%^100 = 4,8%. Avec verificateur a chaque etape : 100% independant.
Articles connexes
Cours complet Reins Engineering
| Cours | Titre |
|---|---|
| Cours 1 | Comment commander l’IA |
| Cours 2 | Comment ne pas faire confiance a l’IA |
| Cours 3 | L’application incassable |
| Cours 4 | Les decisions hors du code |
| Cours 5 | L’IA bridee |
| Cours 6 | Passe, verrouille |
| Cours 7 | Retourner la flatterie |
| Cours 8 | L’usine des agents |
| Cours 9 | L’automatisation au-dela du code |
| Cours 10 | La loi des donnees |
Sources
- Taux de soumission moyen modeles frontieres : 58,19%. Persistance : 78,5%.
- OpenAI GPT-4o — rollback en 3 jours.
- LLM-as-Judge — precision max 68,5%, faux pass jusqu’a 44,4%.
- 1000 mots : fait precis + position → 0 erreurs, 100%.