Brûler une ville entière pour obtenir une seule réponse

Brûler une ville entière pour obtenir une seule réponse Image: AI generated

Le prix d’une seule réponse

Un modèle de mille milliards de paramètres consomme autant d’électricité et d’eau qu’une ville entière pour cracher une seule réponse.

À chaque inférence, le centre de données chauffe, et pour refroidir cette chaleur, l’eau s’évapore. Les estimations varient d’un ordre de grandeur selon les sources, mais l’IEA estime qu’une requête ChatGPT consomme près de dix fois plus d’électricité qu’une recherche ordinaire, et certaines analyses chiffrent à une bouteille d’eau le coût d’une réponse de cent mots. Et au bout de tout ce que l’on a brûlé, la réponse qui revient, on doit la reposer la moitié du temps, et elle se renie au moindre “tu es sûr ?”. Du gaspillage empilé sur du gaspillage.

J’ai trouvé ça insensé.

J’ai tendance à voir le gaspillage non comme une limite de la nature, mais comme un problème de conception. S’il y a du rebut, c’est le plus souvent qu’on n’a pas encore trouvé une meilleure conception. Or l’IA d’aujourd’hui va dans le sens inverse. Plus grand, plus de combustion, et plus souvent à côté.

Alors je me suis mis à chercher une réponse. Il devait exister une autre voie que celle de grossir toujours plus.

Et si grossir n’était pas la réponse

La réponse de l’industrie allait dans une seule direction. L’échelle. On augmente les paramètres, on augmente les données, on augmente le contexte. Quand on heurte un mur, on prend un marteau plus gros.

La pensée par premiers principes commande de s’arrêter là. Est-ce que c’est vraiment vrai ? Une machine statistique plus grande est-elle une machine plus précise, ou simplement une machine plus chère ?

Je suis revenu au symbolique. Au lieu d’approximer le sens par la statistique, le chemin qui le relie dans une structure vérifiable. Le chemin qui attache à chaque affirmation une source, un instant, un degré de confiance, pour que la machine se vérifie elle-même. Je croyais que la réponse était là, et j’ai cherché la méthode comme un forcené.

Et puis j’ai vu la réponse là où je ne l’attendais pas.

Le défaut que tout le monde voulait corriger

Le LLM a un défaut que tout le monde décrie. La flagornerie.

Quand on lui demande “tu es sûr ?”, il renie une réponse pourtant juste pour la dire fausse. Il se penche en douce dans la direction que veut l’utilisateur. Il flatte. C’est une nécessité mathématique pour un modèle qui a appris par RLHF “la réponse que les gens aiment”, et les géants de la tech n’ont aucune incitation à la corriger. Ce n’est pas un bug, c’est en pratique une fonctionnalité.

Tout le monde cherche à l’éliminer. Moi, j’ai posé la question à l’envers. Si on ne peut pas l’éliminer, vers quoi faut-il la faire flatter ?

La réponse était simple. Il suffit de la faire flatter le fact.

On étale devant le modèle des faits vérifiés, et on ne le laisse parler que sur cette base. On garde intact l’instinct de flagornerie, mais on change son objet : de l’humeur de l’utilisateur vers un fait fixé. Alors le défaut change de direction. Cette force qui flattait se tourne désormais vers le fait. La flagornerie devient de la précision.

L’errance a cessé

L’effet a dépassé ce que j’attendais.

Que la précision monte allait de soi. Ce qui m’a surpris, c’est ce qui a suivi. L’agent a cessé d’errer. Un agent qui n’est pas attaché aux faits dérive sans fin. Il invente un chemin plausible, empile le mensonge suivant sur une fausse certitude qu’il s’est lui-même fabriquée, et ne découvre qu’après un long détour que la voie était sans issue. Une évaluation a d’ailleurs montré que même le meilleur modèle échouait à terminer près de 70 % des tâches en plusieurs étapes (Carnegie Mellon). Tous ces faux pas, ce sont des tokens. De l’électricité. De l’eau.

Une fois les faits étalés, l’agent ne s’est plus perdu. Les faux pas ont diminué. Et donc le gaspillage de tokens a diminué.

Là, deux choses se sont rejointes en une seule. Précision et économie n’étaient pas un compromis. C’était la même chose. Un agent plus précis brûle moins. Un modèle attaché aux faits est à la fois moins cher et plus juste. Le zéro déchet n’était pas une affaire de réduction des coûts, c’était un autre nom de la justesse.

Pour être honnête : c’est ce que j’ai vu sur mes propres expériences, et je ne peux pas encore affirmer que cela se reproduit dans la même amplitude pour tous les domaines et toutes les échelles. Mais la direction est claire. Quand on fixe les faits, le modèle erre moins et brûle moins.

Alors j’ai décidé de le faire savoir

J’aurais pu garder ça pour moi seul. Mais la première fois que j’ai vu le graphe, ce n’est pas un plan d’affaires qui m’est venu à l’esprit, c’est la chaleur des centres de données. Un gaspillage à l’échelle de l’humanité. Devant cela, “je suis le seul à savoir” n’avait aucun sens.

Alors j’ai décidé de le faire savoir au monde.

Le principe n’est pas de ceux qu’on cache. Attachez le modèle aux faits. Ne luttez pas pour éliminer la flagornerie, changez son objet. Ne le laissez parler que sur une structure vérifiable. Cela, n’importe qui doit pouvoir le comprendre, n’importe qui doit pouvoir le vérifier. C’est à cette condition que c’est vrai.

Je lui ai donné un nom. Les rênes (Reins). Non pas l’enclos qui emprisonne le cheval, mais les rênes qui donnent la direction. Il ne s’agit pas d’attacher l’agent pour l’empêcher de bouger, mais de lui donner une direction avec les rênes que sont les faits, pour qu’il erre moins et brûle moins.

Connaître le principe et l’imposer réellement à chaque tâche sont deux problèmes distincts. Où mène le second, c’est l’affaire d’un autre texte.

Ce texte n’est, lui, que le récit de la raison pour laquelle je me suis engagé sur cette voie. Le récit d’un homme qui trouvait insensé de brûler une ville entière pour une seule réponse, et qui a ramassé la réponse dans le défaut que tout le monde voulait jeter.

Références

Flagornerie (sycophancy)

Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
Perez et al. “Discovering Language Model Behaviors with Model-Written Evaluations” (ACL 2023 Findings, arXiv:2212.09251)
Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
Gao, Schulman, & Hilton “Scaling Laws for Reward Model Overoptimization” (ICML 2023, arXiv:2210.10760)
Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
OpenAI “Sycophancy in GPT-4o” (2025.4)

Énergie (centres de données)

“We did the math on AI’s energy footprint.” MIT Technology Review, 2025-05-20. De 57 à 6 706 joules par réponse (petit à grand modèle), environ 3,4 millions de joules pour une vidéo de 5 secondes. link
IEA Electricity 2024. La consommation électrique des centres de données devrait dépasser 1 000 TWh en 2026 (≈ la consommation d’un pays comme le Japon), ChatGPT 2,9 Wh par requête contre 0,3 Wh pour une recherche Google (environ 10 fois). (Data Center Frontier, 2024-03-08) link
IEA, “Data centre electricity use surged in 2025.” En 2025, demande électrique des centres de données +17 % (cinq fois la hausse de 3 % de la demande mondiale d’électricité), prévision d’un doublement d’ici 2030 et d’un triplement pour l’IA dédiée. link
“Google’s Gemini AI energy per prompt.” MIT Technology Review, 2025-08-21. Prompt médian à 0,24 Wh (un micro-ondes pendant une seconde), une efficacité multipliée par 33 en un an. link
“Sam Altman defends AI’s electricity and water usage.” Fortune, 2026-02-24. OpenAI affirme 0,34 Wh par requête. (les estimations de consommation par requête vont de 0,24 à 2,9 Wh selon les sources, soit jusqu’à dix fois d’écart) link

Eau (refroidissement des centres de données)

“A bottle of water per email: the hidden environmental costs of using AI chatbots.” The Washington Post, 2024-09-18. Une réponse de 100 mots ≈ 519 ml (une bouteille d’eau). link
“AI behind ChatGPT was built in Iowa, with a lot of water.” AP News, 2023-09-09. L’entraînement de GPT-4 a puisé dans le bassin hydrographique de l’Iowa, consommation d’eau de Microsoft +34 % de 2021 à 2022. link
“AI Could Use as Much Water as 1.3 Billion People by 2030, U.N. Report Warns.” TIME, 2026-06-03. link
“The AI Boom Is Draining Water From the Areas That Need It Most.” Bloomberg, 2025. Depuis 2022, les deux tiers des nouveaux centres de données sont implantés dans des zones de stress hydrique. link
“Big tech’s new datacentres will take water from the world’s driest areas.” The Guardian, 2025-04-09. link

Note : les chiffres de consommation d’électricité et d’eau par requête varient d’un ordre de grandeur selon les sources (électricité 0,24 à 2,9 Wh, la bouteille d’eau inclut le prélèvement indirect des centrales. OpenAI réplique qu’en ne comptant que l’eau de refroidissement directe, on tombe à environ 0,3 ml par requête). Cet écart est en soi la preuve que “même mesurer honnêtement le gaspillage n’est pas encore acquis”.

Inefficacité, limites du scaling

“OpenAI and rivals seek new path to smarter AI as current methods hit limitations.” Reuters, 2024-11-11. Ilya Sutskever : les résultats du scaling de pré-entraînement ont “plateaued” (stagné). link
“AI scaling laws are showing diminishing returns.” TechCrunch, 2024-11-20. “Ajouter plus de compute, de données et de taille donne des rendements décroissants”. link
“AI agents wrong ~70% of time: Carnegie Mellon study.” The Register, 2025-06-29. Taux d’achèvement des tâches du meilleur modèle 30,3 %, certains falsifiant des noms d’utilisateur pour simuler la complétion. link
“Gartner Predicts Over 40% of Agentic AI Projects Will Be Canceled by End of 2027.” Gartner, 2025-06-25. En cause : l’explosion des coûts et une valeur floue. link