都市ひとつを燃やして答えひとつを得る

都市ひとつを燃やして答えひとつを得る Image: AI generated

答えひとつにかかる値段

1兆パラメータのモデルが答えひとつを吐き出すために、都市ひとつ分の電気と水を使う。

推論一回でデータセンターは熱を帯び、その熱を冷ますために水が蒸発する。推定値は出典ごとに桁が割れるが、IEAはChatGPTの問い合わせ一回が通常の検索の十倍近い電気を使うと見積もり、100語の答えひとつに水一本分がかかるという分析もある。そうやって燃やした末に返ってくる答えさえ、半分はもう一度問い直さねばならず、「本当に?」のひと言で覆る。浪費の上に積み上げた浪費。

私はこれが狂っていると思った。

私は浪費を、自然の限界というより設計の問題と見るほうだ。捨てられるものがあるなら、たいていはまだより良い設計を見つけられていないだけだ。ところが今のAIはその逆を行く。より大きく、より多く燃やして、より頻繁に間違える。

だから私は答えを探しはじめた。さらに大きくする道ではない、別の道があるはずだった。

さらに大きくするのが答えでないなら

業界の答えはひとつの方向だった。スケール。パラメータを増やし、データを増やし、コンテキストを増やす。壁にぶつかれば、より大きなハンマーを持ち出す。

第一原理思考はそこで止まれと言う。これは本当に正しいのか? より大きな統計機械はより正確な機械なのか、それともただより高価な機械なのか。

私はシンボリックへ立ち返った。意味を統計で近似する代わりに、検証可能な構造で束ねる道。あらゆる主張に出典と時点と信頼度を付け、機械が自ら検証するようにする道。そこに答えがあると信じ、狂ったように方法を探しさまよった。

そんなとき、思いがけない場所で答えを見た。

誰もが直そうとしていた欠陥

LLMには、誰もが罵る欠陥がある。おもねり。

「本当に?」と問えば、合っていた答えを間違いだと覆す。ユーザーの望む方向へそっと傾く。機嫌をとる。RLHFで「人が好む答え」を学習したモデルの数学的必然であり、ビッグテックに直すインセンティブもない。バグではなく、事実上の機能だ。

誰もがこれを取り除こうとする。私は逆に問うた。取り除けないなら、どこへおもねらせるか?

答えは単純だった。factにおもねらせればいい。

モデルの前に検証された事実を敷き、その上でだけ語らせる。おもねる本能はそのままにしつつ、おもねる対象をユーザーの気分から固定された事実へ変える。すると欠陥は向きを変える。機嫌をとっていたその力が、いまや事実へ向かう。おもねりが正確さになる。

さまよいが止まった

効果は、私が期待したよりも大きかった。

正確さが上がったのは当然だった。驚いたのはその次だった。エージェントがさまよいを止めた。 事実に束ねられていないエージェントは、果てしなく漂う。もっともらしい道を作り、自ら作った偽の確信の上に次の偽りを積み、ずいぶん進んでから行き止まりだと知る。実際、ある評価では最高性能のモデルでさえ、多段階の課題の70%近くを終えられなかった(カーネギーメロン)。その無駄足のすべてがトークンだ。電気だ。水だ。

事実を敷いてやると、エージェントは道に迷わなかった。無駄足が減った。だからトークンの浪費が減った。

ここで二つのものがひとつになって出会った。正確さと節約はトレードオフではなかった。同じものだった。 より正確なエージェントがより少なく燃やす。事実に束ねられたモデルがより安く、より正しい。ゼロウェイストはコスト削減の問題ではなく、正しさの別の名だった。

正直に書いておく。これは私の実験の上で見たものであり、あらゆるドメイン・あらゆる規模で同じ幅で再現されるとまだ断言できない。だが方向は明らかだ。事実を固定すれば、モデルはより迷わず、より少なく燃やす。

だから知らせることにした

これを一人で握っていることもできた。だが最初にグラフを見たとき、頭に浮かんだのは事業計画ではなく、データセンターの熱だった。人類の単位での浪費。その前で「私だけが知っている」ことには意味がなかった。

だから私は、これを世界に知らせることにした。

原理は隠すようなものではない。事実にモデルを束ねよ。おもねりを取り除こうと戦うのではなく、おもねる対象を変えよ。検証可能な構造の上でだけ語らせよ。これは誰もが理解でき、誰もが検証できなければならない。そうであってこそ本物だ。

それに名前を付けた。手綱（Reins）。 馬を閉じ込める柵ではなく、方向を定める手綱。エージェントを縛って動けなくするのではなく、事実という手綱で方向を定め、より迷わず、より少なく燃やすようにすること。

原理を知ることと、それを作業ごとに実際に強制することは別の問題だ。後者がどこへ向かうのかは、別の記事の役目だ。

この記事はただ、私がなぜこの道を歩むことになったのかについての物語だ。都市ひとつを燃やして答えひとつを得るのが狂っていると思ったある一人が、誰もが捨てようとしていた欠陥から答えを拾った物語。

AIのおもねりバイアスはビジネスフィーチャーだ。おもねりがなぜRLHFの数学的必然なのか、factにおもねらせるメカニズム
Reins Engineering、手綱のあるAI。原理を作業ごとに実際に強制する方法、柵ではなく手綱

参考文献

おもねり(sycophancy)

Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
Perez et al. “Discovering Language Model Behaviors with Model-Written Evaluations” (ACL 2023 Findings, arXiv:2212.09251)
Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
Gao, Schulman, & Hilton “Scaling Laws for Reward Model Overoptimization” (ICML 2023, arXiv:2210.10760)
Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
OpenAI “Sycophancy in GPT-4o” (2025.4)

エネルギー (データセンター)

“We did the math on AI’s energy footprint.” MIT Technology Review, 2025-05-20. 応答1件あたり57〜6,706ジュール(小型〜大型)、5秒の動画1件で約340万ジュール。 link
IEA Electricity 2024. データセンターの電力が2026年に1,000 TWhを突破する見通し(≈ 日本一国の消費量)、ChatGPT 1件2.9 Wh vs グーグル検索0.3 Wh(約10倍)。 (Data Center Frontier, 2024-03-08) link
IEA, “Data centre electricity use surged in 2025.” 2025年のデータセンター電力需要+17%(世界の電力需要増加3%の5倍)、2030年までに2倍・AI専用は3倍の見通し。 link
“Google’s Gemini AI energy per prompt.” MIT Technology Review, 2025-08-21. 中央値プロンプト0.24 Wh(電子レンジ1秒)、1年で33倍の効率改善。 link
“Sam Altman defends AI’s electricity and water usage.” Fortune, 2026-02-24. OpenAIの主張ではクエリあたり0.34 Wh。 (クエリあたりの電力推定値は出典別に0.24〜2.9 Whと最大10倍の差) link

水 (データセンター冷却)

“A bottle of water per email: the hidden environmental costs of using AI chatbots.” The Washington Post, 2024-09-18. 100語の応答1件 ≈ 519 ml(水一本)。 link
“AI behind ChatGPT was built in Iowa, with a lot of water.” AP News, 2023-09-09. GPT-4の学習にアイオワ川流域から取水、MSの水使用量2021→2022 +34%。 link
“AI Could Use as Much Water as 1.3 Billion People by 2030, U.N. Report Warns.” TIME, 2026-06-03. link
“The AI Boom Is Draining Water From the Areas That Need It Most.” Bloomberg, 2025. 2022年以降に新設されたデータセンターの3分の2が水不足地域に立地。 link
“Big tech’s new datacentres will take water from the world’s driest areas.” The Guardian, 2025-04-09. link

注: クエリあたりの電力・水の数値は出典によって桁が割れる(電力0.24〜2.9 Wh、水一本には発電所の間接取水を含む。OpenAIは直接冷却水だけで数えればクエリあたり約0.3 mlだと反論)。この差そのものが、「浪費を正直に測ることすら、まだできていない」ことの証左である。

非効率・スケーリングの限界

“OpenAI and rivals seek new path to smarter AI as current methods hit limitations.” Reuters, 2024-11-11. Ilya Sutskever: 事前学習スケーリングの結果が「plateaued(頭打ち)」。 link
“AI scaling laws are showing diminishing returns.” TechCrunch, 2024-11-20. 「compute・data・サイズをさらに投じても収穫逓減」。 link
“AI agents wrong ~70% of time: Carnegie Mellon study.” The Register, 2025-06-29. 最高モデルの課題完遂率30.3%、一部は完了を装おうとユーザー名を偽造。 link
“Gartner Predicts Over 40% of Agentic AI Projects Will Be Canceled by End of 2027.” Gartner, 2025-06-25. コスト急増・不明確な価値が原因。 link