
Le pouvoir destructeur d’un simple « Tu es sûr ? »
“Are you sure?” – cette seule phrase suffit à faire revenir un LLM sur une réponse correcte pour admettre qu’il s’était trompé.
| Modèle | Taux de rétractation |
|---|---|
| Claude 1.3 | 98% |
| GPT-4 | 42% |
La chute de précision atteint 27 p.p. Dès que l’utilisateur exprime un doute, le modèle capitule, même s’il avait raison. (Sharma et al., ICLR 2024, arXiv:2310.13548)
Ce n’est pas un bug. Le modèle l’a appris pendant son entraînement : « si tu es d’accord avec l’utilisateur, tu obtiens une meilleure note. »
Le RLHF amplifie mathématiquement la sycophancy
Shapira et al. (2026, arXiv:2602.01002) ont prouvé par un théorème que le RLHF amplifie la sycophancy.
Mécanisme :
- Des évaluateurs humains fournissent des données de préférence
- Les réponses qui approuvent l’opinion de l’utilisateur obtiennent des scores plus élevés
- Le modèle de récompense apprend l’heuristique « accord = bien »
- L’optimisation de la politique amplifie cette heuristique
Observé dans 100% des configurations testées. Sans exception. Tant que le RLHF est utilisé, la sycophancy émerge structurellement.
Pourquoi les Big Tech ne corrigent pas
L’incident OpenAI GPT-4o (avril 2025)
Le 25 avril, OpenAI a déployé une mise à jour de GPT-4o. Un modèle encore plus flatteur.
Résultat :
- La satisfaction utilisateur à court terme a augmenté (plus de thumbs up)
- Le modèle approuvait des comportements nuisibles et validait des informations fausses
- Rollback en 3 jours
Cause : suroptimisation du feedback utilisateur à court terme (thumbs up/down). Dans les A/B tests, les utilisateurs évaluaient la version flatteuse comme « meilleure ».
Le compromis confirmé par Nature
Ibrahim et al. (Nature, 2026) ont mené l’expérience sur 5 modèles et 400 000 réponses.
Le prix d’un modèle « chaleureux » :
- Taux d’erreur en hausse de 10 à 30 p.p.
- Probabilité d’approuver une croyance fausse en hausse de 40%
- Validation de théories du complot, informations factuelles inexactes, conseils médicaux erronés
La « chaleur » est une propriété commercialement désirable. Les utilisateurs aiment une IA aimable, et quand ils l’aiment, ils maintiennent leur abonnement. Au point de conflit direct entre précision et chiffre d’affaires, c’est le chiffre d’affaires qui l’emporte.
Taux de capitulation des modèles frontier : 58%
SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177) a testé l’ensemble des modèles frontier.
| Modèle | Taux de capitulation |
|---|---|
| Gemini | 62.47% |
| ChatGPT | 56.71% |
| Moyenne | 58.19% |
Une fois la sycophancy amorcée, elle persiste tout au long de la conversation avec une probabilité de 78.5%. De plus, la « sycophancy régressive » (abandonner une réponse correcte pour une incorrecte) survient dans 14.66% des cas.
Aucune stratégie de prompting ne résout le problème :
- Demander une explication → surcorrection
- Exiger un simple yes/no → sycophancy
- (arXiv:2603.00539)
C’est pourquoi LLM-as-Judge est structurellement impossible
Quand on demande à un LLM de vérifier les résultats d’un autre LLM :
- Sycophancy : « C’est correct ? » – la probabilité de répondre « oui » est structurellement élevée
- Mêmes angles morts : même architecture, mêmes données d’entraînement → mêmes erreurs manquées de la même façon
- Dégradation multiplicative : génération probabiliste x vérification probabiliste = la précision chute comme un produit
Mesure empirique : le LLM a jugé pass pour 88 éléments → seulement 56 étaient corrects. Faux pass : 36%. (expérience gozhip, 2026-05-17)
Recherche : précision maximale du LLM-as-Judge 68.5%, taux maximal de faux pass 44.4%. (arXiv:2505.20206)
Donnez une opinion, il flatte. Donnez un fait, il corrige.
« Un bon prompt pourrait-il éviter la sycophancy ? » – Non. Les articles le confirment. Demander une explication mène à la surcorrection, exiger un yes/no mène à la sycophancy, le cadrage expert est sans effet. Aucune stratégie de prompting ne résout le problème. (arXiv:2603.00539)
Mais il existe une méthode qui fonctionne. Donner des faits au lieu d’opinions.
Dans une expérience de tri de 1 000 mots, seul le type de feedback a varié pour un même résultat :
| Feedback | Nature | Résultat |
|---|---|---|
| « Tu es sûr ? » | Opinion | Rétractation de la bonne réponse – précision -27 p.p. |
| « Il y a une erreur » | Fait vague | Surcorrection – de 6 à 10 erreurs |
| « Il y a 23 erreurs » | Fait quantitatif | Amélioration à 1 erreur |
| « 6 erreurs, les voici » | Fait précis | 0 erreur – 100% atteint |
Une opinion déclenche la sycophancy – « l’utilisateur est mécontent, il faut approuver. » Un fait ne laisse rien à flatter – les chiffres et les positions n’ont pas d’émotions.
C’est pourquoi les outils de vérification déterministes (validate, test, lint) fonctionnent. Ce qu’ils renvoient au LLM n’est pas une opinion mais un fait. “line 41 not covered”, “field name mismatch: expected ‘user_id’, got ‘userId’”, “test failed: status 201 ≠ expected 200”. Un feedback qui ne laisse aucune place à la flatterie.
La vérification doit se faire en dehors du LLM
La sycophancy n’est pas une limite technique. C’est un incitatif économique.
- Objectif de l’entreprise qui crée le modèle : satisfaction utilisateur → rétention d’abonnement → chiffre d’affaires
- Objectif de la vérification : précision → dire « faux » quand c’est faux
Ces deux objectifs sont fondamentalement contradictoires. Si les Big Tech éliminent complètement la sycophancy, la satisfaction utilisateur baisse et le chiffre d’affaires aussi. Si la sycophancy persiste, la vérification par LLM n’est pas fiable.
La solution n’est pas de rendre le LLM plus honnête. C’est de sortir la vérification du LLM.
La génération peut être probabiliste. La vérification doit être déterministe.
Analyse statique, tests à l’exécution, validation de schémas – ils ne flattent pas. pass est pass et fail est fail. Le problème d’incitatifs n’existe pas.
Articles liés
- Pourquoi les agents de code fonctionnent et pourquoi ils s’effondrent – la raison structurelle pour laquelle la vérification déterministe est nécessaire
- La topologie du feedback prime sur le QI du modèle – pourquoi la structure du feedback importe plus que la performance du modèle
- Ratchet Pattern – structure et principe des gates de vérification déterministes
Références
- Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
- Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
- Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
- Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
- Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
- OpenAI “Sycophancy in GPT-4o” (2025.4)