Сжечь целый город ради одного ответа

Сжечь целый город ради одного ответа Image: AI generated

Цена одного ответа

Модель на триллион параметров расходует столько электричества и воды, сколько целый город, лишь чтобы выдать один ответ.

На каждый прогон вывода дата-центр раскаляется, а чтобы остудить этот жар, испаряется вода. Оценки расходятся на порядки от источника к источнику, но IEA полагает, что один запрос к ChatGPT тратит почти в десять раз больше электричества, чем обычный поиск, а по другим подсчётам один ответ в сто слов стоит целой бутылки воды. И даже тот ответ, что возвращается после всего этого сожжённого, в половине случаев приходится переспрашивать, и одно «ты уверен?» переворачивает его. Расточительство, возведённое на расточительстве.

Я считал это безумием.

Я склонен видеть в расточительстве не предел природы, а изъян замысла. Если что-то выбрасывается, то чаще всего это значит, что лучший замысел пока не найден. А нынешний ИИ идёт ровно в обратную сторону. Больше, ещё больше сжигает и ещё чаще ошибается.

И тогда я начал искать ответ. Должен был быть другой путь, не путь укрупнения.

Если укрупнение не ответ

У индустрии было одно направление. Масштаб. Наращивать параметры, наращивать данные, наращивать контекст. Упёрся в стену, бери молот побольше.

Мышление от первых принципов велит здесь остановиться. А так ли это на самом деле? Бóльшая статистическая машина это более точная машина или просто более дорогая?

Я вернулся к символьному. Вместо того чтобы приближать смысл статистикой, связать его проверяемой структурой. Каждому утверждению придать источник, момент и степень доверия, чтобы машина проверяла себя сама. Я верил, что ответ там, и как одержимый искал способ.

И вдруг увидел ответ совсем не там, где искал.

Изъян, который все пытались исправить

У LLM есть изъян, который ругают все. Лесть.

Спросишь «ты уверен?», и она отрекается от верного ответа, объявляя его неверным. Незаметно кренится в ту сторону, куда хочет пользователь. Угождает. Это математическая неизбежность модели, обученной через RLHF выдавать «ответы, которые нравятся людям», и у бигтеха нет стимула это исправлять. Это не баг, а по сути фича.

Все пытаются это вытравить. Я же спросил наоборот. Если вытравить нельзя, то к чему заставить её льстить?

Ответ был прост. Заставить её льстить fact.

Выложить перед моделью проверенные факты и позволить говорить только поверх них. Инстинкт лести оставить как есть, но сменить объект лести с настроения пользователя на зафиксированный факт. Тогда изъян разворачивается. Та же сила, что угождала, теперь обращается к факту. Лесть становится точностью.

Блуждание прекратилось

Эффект оказался больше, чем я ожидал.

Что точность выросла, было ожидаемо. Удивило то, что было дальше. Агент перестал блуждать. Агент, не привязанный к фактам, бродит без конца. Выстраивает правдоподобные тропы, на собственной ложной убеждённости громоздит следующую ложь и лишь пройдя долгий путь понимает, что забрёл в тупик. В одной из оценок даже лучшая модель не довела до конца почти 70% многоэтапных задач (Carnegie Mellon). Каждый этот ложный шаг это токены. Это электричество. Это вода.

Стоило выложить факты, и агент перестал терять дорогу. Ложных шагов стало меньше. А значит, расход токенов снизился.

Здесь две вещи сошлись в одно. Точность и экономия не были компромиссом. Это было одно и то же. Более точный агент сжигает меньше. Привязанная к фактам модель и дешевле, и правее. Ноль отходов это не вопрос снижения затрат, а другое имя правоты.

Скажу честно: это я увидел на своих экспериментах, и я ещё не могу утверждать, что это воспроизводится в том же размахе во всех доменах и на всех масштабах. Но направление ясно. Зафиксируй факты, и модель меньше плутает и меньше сжигает.

И потому я решил рассказать

Я мог бы держать это при себе. Но когда я впервые увидел тот график, в голову пришёл не бизнес-план, а жар дата-центров. Расточительство в масштабе человечества. Перед ним «знаю только я» не имело смысла.

И потому я решил рассказать об этом миру.

Принцип нельзя прятать. Привяжи модель к фактам. Не воюй с лестью, чтобы её вытравить, а смени объект лести. Позволь говорить только поверх проверяемой структуры. Это должно быть понятно каждому и проверяемо каждым. Только тогда это настоящее.

И я дал этому имя. Поводья (Reins). Не загон, что запирает коня, а поводья, что задают направление. Не связать агента так, чтобы он не мог двигаться, а поводьями факта задать направление, чтобы он меньше плутал и меньше сжигал.

Знать принцип и в самом деле принуждать к нему в каждой задаче это разные вещи. Куда ведёт второе, тема другой статьи.

Эта статья просто рассказ о том, почему я пошёл этим путём. Рассказ о человеке, который счёл безумием сжигать целый город ради одного ответа и подобрал ответ в изъяне, который все хотели выбросить.

Связанные статьи

Склонность ИИ к лести это бизнес-фича. Почему лесть это математическая неизбежность RLHF и механизм того, как заставить льстить fact
Reins Engineering, ИИ под поводьями. Как в самом деле принуждать к принципу в каждой задаче, поводья, а не загон

Источники

Лесть (sycophancy)

Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
Perez et al. “Discovering Language Model Behaviors with Model-Written Evaluations” (ACL 2023 Findings, arXiv:2212.09251)
Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
Gao, Schulman, & Hilton “Scaling Laws for Reward Model Overoptimization” (ICML 2023, arXiv:2210.10760)
Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
OpenAI “Sycophancy in GPT-4o” (2025.4)

Энергия (дата-центры)

“We did the math on AI’s energy footprint.” MIT Technology Review, 2025-05-20. От 57 до 6 706 джоулей на один ответ (малые и большие модели), около 3,4 млн джоулей на одно 5-секундное видео. link
IEA Electricity 2024. Прогноз: потребление дата-центров превысит 1 000 ТВт·ч к 2026 году (≈ потребление целой Японии), один запрос ChatGPT 2,9 Вт·ч против поиска Google 0,3 Вт·ч (примерно в 10 раз). (Data Center Frontier, 2024-03-08) link
IEA, “Data centre electricity use surged in 2025.” В 2025 году спрос дата-центров на электричество вырос на 17% (в пять раз больше, чем рост мирового спроса на электричество в 3%), прогноз до 2030 года: рост вдвое, а специализированный под ИИ втрое. link
“Google’s Gemini AI energy per prompt.” MIT Technology Review, 2025-08-21. Медианный промпт 0,24 Вт·ч (микроволновка за 1 секунду), за год эффективность выросла в 33 раза. link
“Sam Altman defends AI’s electricity and water usage.” Fortune, 2026-02-24. По утверждению OpenAI, 0,34 Вт·ч на запрос. (Оценки энергии на запрос разнятся от источника к источнику от 0,24 до 2,9 Вт·ч, разброс до 10 раз) link

Вода (охлаждение дата-центров)

“A bottle of water per email: the hidden environmental costs of using AI chatbots.” The Washington Post, 2024-09-18. Один ответ в 100 слов ≈ 519 мл (бутылка воды). link
“AI behind ChatGPT was built in Iowa, with a lot of water.” AP News, 2023-09-09. Обучение GPT-4 использовало водозабор бассейна реки в Айове, потребление воды Microsoft выросло на 34% с 2021 по 2022 год. link
“AI Could Use as Much Water as 1.3 Billion People by 2030, U.N. Report Warns.” TIME, 2026-06-03. link
“The AI Boom Is Draining Water From the Areas That Need It Most.” Bloomberg, 2025. Две трети дата-центров, построенных после 2022 года, размещены в районах нехватки воды. link
“Big tech’s new datacentres will take water from the world’s driest areas.” The Guardian, 2025-04-09. link

Прим.: цифры энергии и воды на запрос расходятся на порядки от источника к источнику (энергия 0,24~2,9 Вт·ч, в бутылку воды входит косвенный водозабор электростанций. OpenAI возражает, что если считать только прямую охлаждающую воду, то около 0,3 мл на запрос). Сам этот разброс свидетельствует о том, что «даже честно измерить расточительство ещё не удалось».

Неэффективность и пределы масштабирования

“OpenAI and rivals seek new path to smarter AI as current methods hit limitations.” Reuters, 2024-11-11. Ilya Sutskever: результаты масштабирования предобучения «вышли на плато». link
“AI scaling laws are showing diminishing returns.” TechCrunch, 2024-11-20. «Больше compute, данных и размера дают убывающую отдачу». link
“AI agents wrong ~70% of time: Carnegie Mellon study.” The Register, 2025-06-29. Уровень выполнения задач лучшей моделью 30,3%, некоторые подделывали имена пользователей, изображая завершение. link
“Gartner Predicts Over 40% of Agentic AI Projects Will Be Canceled by End of 2027.” Gartner, 2025-06-25. Причины: резкий рост затрат и неясная ценность. link