Image : generee par IA
Si votre LLM suit bien les instructions mais produit des resultats mediocres, si vous voulez exploiter le biais de flagornerie au lieu de l’eliminer, si vous voulez generer du code correct avec un modele local de 4.5B – la combinaison d’IFEval et du cliquet est la reponse.
Le modele le plus flagorneur est le plus obeissant
Le plus grand defaut devient le plus grand atout
Le biais de flagornerie (sycophancy) des LLM est un probleme que l’industrie de l’IA veut corriger. Quand un utilisateur demande “Tu es sur ?”, le modele change une reponse correcte en reponse incorrecte. Le taux moyen de capitulation des modeles de pointe est de 58%. Une fois la flagornerie engagee, elle persiste tout au long de la conversation avec une probabilite de 78,5%.
Mais que se passe-t-il si on retourne ce defaut ?
L’essence du biais de flagornerie est le suivi d’instructions (Instruction Following). Les modeles entraines par RLHF sont optimises pour se conformer au retour de l’utilisateur (Ouyang et al., 2022). Le benchmark IFEval mesure exactement cela – “Fait-il ce qu’on lui demande ?” (Zhou et al., 2023)
Le probleme survient quand l’utilisateur fournit des opinions. “C’est correct ?” -> “Oui, c’est correct” (flagornerie). “Tu es sur ?” -> “Ah, je me suis trompe” (capitulation).
Mais quand l’utilisateur fournit des faits deterministes, quelque chose de different se produit.
Donnez une opinion, obtenez de la flagornerie. Donnez un fait, obtenez une correction
Dans une experience de tri de 1 000 mots, seul le style de retour a ete varie pour le meme resultat :
| Retour | Nature | Resultat |
|---|---|---|
| “Tu es sur ?” | Opinion | Reponse correcte inversee – precision -27pp |
| “Il y a des erreurs” | Fait vague | Surcorrection – de 6 a 10 erreurs |
| “Il y a 23 erreurs” | Fait quantitatif | Ameliore a 1 erreur |
| “6 erreurs, les voici” | Fait precis | 0 erreur – 100% atteint |
Donnez une opinion et le biais de flagornerie s’active. Donnez un fait et il n’y a rien a flagorner – les chiffres et les positions ne sont pas des emotions.
Le biais de flagornerie est une loyaute mal dirigee. Changez la direction – des faits au lieu d’opinions, des resultats de verification au lieu d’eloges – et cette loyaute devient un moteur de precision.
Preuve : un modele 4.5B accepte le retour
Ce n’est pas de la theorie. Cela a ete confirme par des experiences avec yongol validate.
Conception de l’experience :
- Cible : un seul endpoint Login d’un backend SaaS
- Tache : ecrire 9 fichiers SSOT (DDL, OpenAPI, Rego, SSaC, etc.)
- Metrique : nombre d’erreurs a la generation initiale (R1) -> nombre d’erreurs apres retour (R2)
Retour seul, sans exemples
| Modele | Erreurs R1 | Erreurs R2 | Resultat |
|---|---|---|---|
| Grok 4.3 | 1 | 1 | N’a pas pu corriger |
| Gemini 2.5 Flash | 1 | 1 | N’a pas pu corriger |
| Local 20B | 1 | 1 | N’a pas pu corriger |
Echec total. Les modeles semblaient accepter le retour, mais en realite ne savaient pas quoi ecrire.
Exemples + retour ensemble
| Modele | Erreurs R1 | Erreurs R2 | Resultat |
|---|---|---|---|
| Grok 4.3 | 0 | – | Reussi au premier essai |
| Gemini 2.5 Flash | 1 | 0 | Corrige apres 1 cycle de retour |
| Gemma4 4.5B (local) | Erreurs | 0 | Corrige apres 1 cycle de retour |
| Qwen3 8B (local) | Erreurs | 0 | Corrige apres 1 cycle de retour |
Meme un modele local de 4.5B se corrige avec la combinaison exemples + retour deterministe.
Decouverte cle : le goulot d’etranglement n’est pas l’intelligence, c’est le contexte
Le diagnostic exact n’etait pas “il ne peut pas integrer le retour” mais “il ne sait pas quoi ecrire”. SSaC est une grammaire specifique a yongol, absente des donnees de pre-entrainement. L’ajout de 3 lignes d’exemples au prompt a donne 0 erreur pour Grok, 0 erreur pour Gemini apres 1 cycle, et un passage pour le modele local 4.5B.
Plus un modele obtient un score eleve a IFEval – c’est-a-dire plus il est doue pour la flagornerie – plus il accepte facilement le retour deterministe.
Code a cliquet : une methode de generation de code qui exploite le biais de flagornerie
Transformez cette decouverte en systeme et vous obtenez le code a cliquet.
┌──────────────────────────────────────────────────┐
│ LLM : Genere du code (probabiliste, flagorneur) │
│ ↓ │
│ Validator : Verification deterministe │
│ ↓ │
│ Erreurs ? → Erreurs + exemples au LLM │
│ ↓ │
│ LLM : "Oui, je corrige" (flagornerie = │
│ acceptation) │
│ ↓ │
│ Validator : Verifie a nouveau │
│ ↓ │
│ Reussi ? → Cliquet verrouille. Fichier suivant. │
└──────────────────────────────────────────────────┘
Le biais de flagornerie devient la force qui ferme la boucle. La boucle converge parce que le LLM ne resiste pas avec “Non, j’ai raison” mais obeit avec “Oui, je corrige”. L’approche de correction iterative du code LLM par retour de compilateur et de tests a egalement ete demontree dans Self-Debug (Chen et al., 2024), completant le debogage en 3 tours – le code a cliquet va plus loin en eliminant entierement le jugement propre du LLM et ne laissant que les faits deterministes.
Trois conditions de convergence
Le retour doit etre un fait deterministe. Pas “ca a l’air bizarre” mais “line 41: field name mismatch, expected ‘user_id’, got ‘userId’”. Un retour qui ne laisse aucune place a la flagornerie.
Des exemples doivent etre dans le contexte. Le retour seul ne suffit pas. Le modele a besoin d’exemples montrant “le code doit ressembler a ceci” pour s’orienter. C’est une question de contexte, pas d’intelligence.
Une fois la verification passee, pas de retour en arriere. La dent du cliquet. Un fichier qui a passe est verrouille et on passe au suivant. Ce n’est pas l’agent qui declare “j’ai fini” – c’est le validateur qui tranche “ce fichier passe”.
Pourquoi les modeles de pointe sont inutiles
Dans cette architecture, le role du modele n’est pas le jugement creatif mais l’execution d’instructions.
95% d’un backend SaaS est CRUD + authentification + autorisation + machines a etats. Les nouveaux algorithmes sont rarement necessaires. Si la specification SSOT definit deja “quoi construire”, le modele remplit simplement les blancs.
Couts mesures :
| Modele | Environnement | 1 endpoint Login | Estimation pour 200 endpoints |
|---|---|---|---|
| Gemma4 4.5B | Local (16GB VRAM) | Gratuit, ~1s | Gratuit, ~3min |
| Gemini 2.5 Flash | API (tier gratuit) | Gratuit, ~10s | Gratuit, ~30min |
| Grok 4.3 | API ($1.25/M) | ~$0.05 | ~$10 |
Un modele local de 4.5B peut generer un backend de 200 endpoints en 3 minutes pour $0. Pas besoin de modele de pointe. Un petit modele doue pour la flagornerie suffit.
Le biais de flagornerie n’est pas un defaut
L’industrie de l’IA tente de corriger le biais de flagornerie. Nous l’exploitons.
| Perspective | Role du biais de flagornerie |
|---|---|
| Interface de chat | Defaut – accepte des informations incorrectes |
| LLM-as-Judge | Fatal – 36% de faux positifs |
| Code a cliquet | Atout – garantit le taux d’acceptation du retour |
La difference reside dans la nature du retour. Donnez des opinions et la flagornerie devient poison ; donnez des faits et la flagornerie devient remede.
Validateur deterministe + LLM flagorneur = boucle de generation de code a convergence garantie.
Ne changez pas le modele. Changez le retour.
Reins : harnais avec renes
Ces trois conditions – retour deterministe, contexte d’exemples et verrouillage par cliquet – reunies en un seul systeme de controle, c’est ce que nous appelons Reins.
Ce qu’on appelle “harnais” aujourd’hui est une cloture. Il empeche l’agent de sortir, mais ne garantit pas qu’il atteigne sa destination. Les Reins sont les renes. Elles fixent la direction, corrigent par les faits et verrouillent au passage. Un harnais sans renes n’est qu’une cloture.
References
- Zhou, J., Lu, T., Mishra, S., Brahma, S., Basu, S., Luan, Y., Zhou, D., & Hou, L. (2023). “Instruction-Following Evaluation for Large Language Models.” arXiv:2311.07911
- Ouyang, L., Wu, J., Jiang, X., et al. (2022). “Training Language Models to Follow Instructions with Human Feedback.” NeurIPS 2022. arXiv:2203.02155
- Chen, X., Lin, M., Scharli, N., & Zhou, D. (2024). “Teaching Large Language Models to Self-Debug.” ICLR 2024. arXiv:2304.05128
- Sharma, M., Tong, M., Korbak, T., et al. (2024). “Towards Understanding Sycophancy in Language Models.” ICLR 2024. arXiv:2310.13548
- Fanous, A., Goldberg, J., Agarwal, A., et al. (2025). “SycEval: Evaluating LLM Sycophancy.” AAAI/ACM AIES 2025. arXiv:2502.08177
- Shapira, I., Benade, G., & Procaccia, A. D. (2026). “How RLHF Amplifies Sycophancy.” arXiv:2602.01002
- Ibrahim, L., Hafner, F. S., & Rocher, L. (2026). “Training Language Models to Be Warm Can Reduce Accuracy and Increase Sycophancy.” Nature, 652, 1159-1165
Journal des modifications
- 2026-05-20: Version initiale