Eine ganze Stadt verbrennen für eine einzige Antwort

Eine ganze Stadt verbrennen für eine einzige Antwort Image: AI generated

Was eine einzige Antwort kostet

Ein Modell mit einer Billion Parametern verbraucht so viel Strom und Wasser wie eine ganze Stadt, nur um eine einzige Antwort auszuspucken.

Bei jeder einzelnen Inferenz erhitzt sich das Rechenzentrum, und um diese Hitze zu kühlen, verdampft Wasser. Die Schätzungen schwanken je nach Quelle um Größenordnungen, aber die IEA ging davon aus, dass eine ChatGPT-Anfrage fast zehnmal so viel Strom verbraucht wie eine gewöhnliche Suche, und manche Analysen veranschlagen für eine Antwort von hundert Wörtern eine ganze Flasche Wasser. Und selbst die Antwort, die nach all dem Verbrennen zurückkommt, muss zur Hälfte erneut nachgefragt werden und kippt schon bei einem einzigen “Bist du sicher?”. Verschwendung, auf Verschwendung gebaut.

Ich hielt das für Wahnsinn.

Ich neige dazu, Verschwendung weniger als Grenze der Natur denn als Problem des Designs zu sehen. Wenn etwas weggeworfen wird, dann meist deshalb, weil man noch kein besseres Design gefunden hat. Die heutige KI aber geht den entgegengesetzten Weg. Größer, mehr verbrennen, häufiger danebenliegen.

Also begann ich, nach einer Antwort zu suchen. Es musste einen anderen Weg geben als den, immer weiter zu vergrößern.

Wenn Vergrößern nicht die Antwort ist

Die Antwort der Branche wies in eine einzige Richtung. Skalierung. Mehr Parameter, mehr Daten, mehr Kontext. Stößt man an eine Wand, greift man zum größeren Hammer.

Das Denken vom ersten Prinzip her sagt, man solle genau hier innehalten. Stimmt das wirklich? Ist eine größere statistische Maschine eine genauere Maschine, oder einfach nur eine teurere?

Ich kehrte zum Symbolischen zurück. Statt Bedeutung durch Statistik anzunähern, der Weg, sie in eine verifizierbare Struktur zu binden. Der Weg, jeder Behauptung Quelle, Zeitpunkt und Vertrauenswürdigkeit zuzuordnen, damit die Maschine sich selbst verifizieren kann. Dort glaubte ich die Antwort, und wie besessen suchte ich nach dem Weg.

Und dann sah ich die Antwort an einem ganz unerwarteten Ort.

Der Fehler, den alle beheben wollten

LLMs haben einen Fehler, über den alle schimpfen. Schmeichelei.

Fragt man “Bist du sicher?”, widerruft das Modell eine richtige Antwort als falsch. Es neigt sich klammheimlich in die Richtung, die der Nutzer hören will. Es macht sich beliebt. Das ist die mathematische Zwangsläufigkeit eines Modells, das per RLHF “die Antworten lernt, die Menschen mögen”, und Big Tech hat keinen Anreiz, das zu beheben. Kein Bug, sondern faktisch ein Feature.

Alle wollen das wegmachen. Ich fragte umgekehrt. Wenn man es nicht wegmachen kann, wem soll es dann schmeicheln?

Die Antwort war einfach. Man muss es dazu bringen, fact zu schmeicheln.

Man legt dem Modell verifizierte Fakten vor und lässt es nur auf deren Grundlage sprechen. Den Instinkt zu schmeicheln lässt man unberührt, doch das Ziel der Schmeichelei verschiebt man von der Stimmung des Nutzers hin zu fixierten Fakten. Dann wendet der Fehler seine Richtung. Dieselbe Kraft, die sich vorher anbiederte, richtet sich nun auf die Fakten. Aus Schmeichelei wird Genauigkeit.

Das Umherirren hörte auf

Die Wirkung war größer, als ich erwartet hatte.

Dass die Genauigkeit stieg, war selbstverständlich. Überrascht hat mich, was danach kam. Der Agent hörte auf, umherzuirren. Ein Agent, der nicht an Fakten gebunden ist, treibt endlos umher. Er bahnt sich einen plausiblen Pfad, türmt auf der selbst erzeugten falschen Gewissheit die nächste Lüge, und erst nach langem Weg erkennt er die Sackgasse. Tatsächlich brachte in einer Auswertung selbst das leistungsstärkste Modell fast 70 Prozent der mehrstufigen Aufgaben nicht zu Ende (Carnegie Mellon). All diese Fehltritte sind Token. Sind Strom. Sind Wasser.

Sobald die Fakten ausgelegt waren, verlor der Agent den Weg nicht mehr. Die Fehltritte nahmen ab. Und so sank die Token-Verschwendung.

Hier trafen zwei Dinge in einem zusammen. Genauigkeit und Sparsamkeit waren kein Trade-off. Sie waren dasselbe. Ein genauerer Agent verbrennt weniger. Ein an Fakten gebundenes Modell ist billiger und richtiger zugleich. Null Verschwendung war keine Frage der Kostensenkung, sondern ein anderer Name für Richtigkeit.

Ehrlich gesagt: Das ist es, was ich auf meinen eigenen Experimenten gesehen habe, und ich kann noch nicht behaupten, dass es sich über alle Domänen und alle Größenordnungen im selben Ausmaß reproduzieren lässt. Aber die Richtung ist eindeutig. Fixiert man die Fakten, irrt das Modell weniger und verbrennt weniger.

Darum habe ich es bekannt gemacht

Ich hätte das auch für mich behalten können. Doch als ich das Diagramm zum ersten Mal sah, war das Erste, was mir in den Sinn kam, kein Geschäftsplan, sondern die Hitze der Rechenzentren. Verschwendung auf der Skala der Menschheit. Davor hatte “nur ich weiß es” keinen Sinn.

Also beschloss ich, es in die Welt zu tragen.

Das Prinzip taugt nicht zum Verbergen. Binde das Modell an die Fakten. Kämpfe nicht darum, die Schmeichelei zu beseitigen, sondern verändere ihr Ziel. Lass es nur auf einer verifizierbaren Struktur sprechen. Das kann jeder verstehen, und jeder muss es verifizieren können. Erst dann ist es echt.

Ich gab dem einen Namen. Die Zügel (Reins). Kein Zaun, der das Pferd einsperrt, sondern Zügel, die die Richtung halten. Nicht den Agenten festzubinden, damit er sich nicht rührt, sondern ihn mit den Zügeln der Fakten auf Kurs zu halten, damit er weniger irrt und weniger verbrennt.

Das Prinzip zu kennen und es bei jeder einzelnen Aufgabe tatsächlich zu erzwingen, sind zwei verschiedene Dinge. Wohin das Letztere führt, ist Sache eines anderen Textes.

Dieser Text erzählt einfach davon, warum ich diesen Weg eingeschlagen habe. Die Geschichte eines Menschen, der es für Wahnsinn hielt, eine ganze Stadt zu verbrennen für eine einzige Antwort, und der in dem Fehler, den alle wegwerfen wollten, die Antwort aufgelesen hat.

Quellen

Schmeichelei (sycophancy)

Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
Perez et al. “Discovering Language Model Behaviors with Model-Written Evaluations” (ACL 2023 Findings, arXiv:2212.09251)
Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
Gao, Schulman, & Hilton “Scaling Laws for Reward Model Overoptimization” (ICML 2023, arXiv:2210.10760)
Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
OpenAI “Sycophancy in GPT-4o” (2025.4)

Energie (Rechenzentren)

“We did the math on AI’s energy footprint.” MIT Technology Review, 2025-05-20. 57 bis 6.706 Joule pro Antwort (klein bis groß), ein 5-Sekunden-Video etwa 3,4 Millionen Joule. link
IEA Electricity 2024. Prognose, dass der Stromverbrauch der Rechenzentren 2026 die Marke von 1.000 TWh überschreitet (≈ Verbrauch eines Landes wie Japan), ChatGPT 2,9 Wh pro Anfrage vs. Google-Suche 0,3 Wh (etwa zehnfach). (Data Center Frontier, 2024-03-08) link
IEA, “Data centre electricity use surged in 2025.” Strombedarf der Rechenzentren 2025 +17 Prozent (das Fünffache des weltweiten Anstiegs des Strombedarfs von 3 Prozent), Prognose einer Verdopplung bis 2030, bei reinen KI-Anwendungen einer Verdreifachung. link
“Google’s Gemini AI energy per prompt.” MIT Technology Review, 2025-08-21. Median-Prompt 0,24 Wh (eine Sekunde Mikrowelle), binnen eines Jahres 33-fache Effizienzsteigerung. link
“Sam Altman defends AI’s electricity and water usage.” Fortune, 2026-02-24. OpenAI behauptet 0,34 Wh pro Anfrage. (Die Schätzungen des Stromverbrauchs pro Anfrage schwanken je nach Quelle zwischen 0,24 und 2,9 Wh, also um das bis zu Zehnfache.) link

Wasser (Rechenzentrumskühlung)

“A bottle of water per email: the hidden environmental costs of using AI chatbots.” The Washington Post, 2024-09-18. Eine Antwort von hundert Wörtern ≈ 519 ml (eine Flasche Wasser). link
“AI behind ChatGPT was built in Iowa, with a lot of water.” AP News, 2023-09-09. Für das Training von GPT-4 Wasserentnahme aus dem Flusseinzugsgebiet von Iowa, MS-Wasserverbrauch 2021→2022 +34 Prozent. link
“AI Could Use as Much Water as 1.3 Billion People by 2030, U.N. Report Warns.” TIME, 2026-06-03. link
“The AI Boom Is Draining Water From the Areas That Need It Most.” Bloomberg, 2025. Seit 2022 liegen zwei Drittel der neu errichteten Rechenzentren in Gebieten mit Wasserknappheit. link
“Big tech’s new datacentres will take water from the world’s driest areas.” The Guardian, 2025-04-09. link

Anmerkung: Die Zahlen zu Strom und Wasser pro Anfrage schwanken je nach Quelle um Größenordnungen (Strom 0,24 bis 2,9 Wh, in der Flasche Wasser ist die indirekte Wasserentnahme der Kraftwerke enthalten. OpenAI widerspricht, dass es bei reiner Kühlung mit Direktwasser nur etwa 0,3 ml pro Anfrage seien). Diese Schwankung selbst ist ein Beleg dafür, dass “noch nicht einmal die ehrliche Messung der Verschwendung gelungen ist”.

Ineffizienz, Grenzen der Skalierung

“OpenAI and rivals seek new path to smarter AI as current methods hit limitations.” Reuters, 2024-11-11. Ilya Sutskever: Die Ergebnisse der Vortrainings-Skalierung seien “plateaued” (in Stagnation). link
“AI scaling laws are showing diminishing returns.” TechCrunch, 2024-11-20. “Mehr Compute, Daten und Größe bringen abnehmenden Ertrag”. link
“AI agents wrong ~70% of time: Carnegie Mellon study.” The Register, 2025-06-29. Aufgabenerfüllungsrate des besten Modells 30,3 Prozent, manche fälschten Nutzernamen, um eine Erledigung vorzutäuschen. link
“Gartner Predicts Over 40% of Agentic AI Projects Will Be Canceled by End of 2027.” Gartner, 2025-06-25. Ursachen sind explodierende Kosten und unklarer Mehrwert. link