Membakar satu kota demi satu jawaban

Membakar satu kota demi satu jawaban Image: AI generated

Harga dari satu jawaban

Model satu triliun parameter memakai listrik dan air sebanyak satu kota hanya untuk memuntahkan satu jawaban.

Setiap satu inferensi membuat pusat data memanas, dan untuk mendinginkan panas itu air menguap. Perkiraannya berbeda berordo besar dari satu sumber ke sumber lain, tetapi IEA memandang satu kueri ChatGPT memakai listrik hampir sepuluh kali lipat pencarian biasa, dan ada pula analisis yang menyebut satu jawaban sepanjang 100 kata menghabiskan sebotol air. Setelah semua pembakaran itu, separuh jawaban yang kembali masih harus ditanyakan ulang, dan tumbang hanya oleh satu kata: “kamu yakin?” Pemborosan yang ditumpuk di atas pemborosan.

Saya pikir ini gila.

Saya cenderung memandang pemborosan bukan sebagai batas alam, melainkan sebagai masalah desain. Jika ada yang terbuang, biasanya kita hanya belum menemukan desain yang lebih baik. Namun AI saat ini justru bergerak ke arah sebaliknya. Lebih besar, lebih banyak dibakar, lebih sering keliru.

Maka saya mulai mencari jawaban. Harus ada jalan lain selain memperbesar.

Kalau memperbesar bukan jawabannya

Jawaban industri hanya satu arah. Skala. Tambah parameter, tambah data, tambah konteks. Ketika membentur tembok, mereka mengangkat palu yang lebih besar.

Pemikiran prinsip pertama menyuruh berhenti di situ. Apa ini benar-benar betul? Apakah mesin statistik yang lebih besar adalah mesin yang lebih akurat, atau sekadar mesin yang lebih mahal?

Saya kembali ke simbolik. Alih-alih menghampiri makna dengan statistik, saya menempuh jalan mengikatnya dalam struktur yang dapat diverifikasi. Jalan yang melekatkan sumber, waktu, dan tingkat kepercayaan pada setiap klaim agar mesin dapat memverifikasi dirinya sendiri. Saya percaya jawabannya ada di sana, dan saya berkelana mencari caranya seperti orang gila.

Lalu saya melihat jawaban itu di tempat yang tak terduga.

Cacat yang ingin diperbaiki semua orang

LLM punya satu cacat yang dicaci semua orang. Menjilat.

Saat ditanya “kamu yakin?”, ia membatalkan jawaban yang tadinya benar dan menyebutnya salah. Ia diam-diam condong ke arah yang diinginkan pengguna. Ia mencari muka. Ini adalah kemestian matematis dari model yang dilatih untuk “jawaban yang disukai manusia” lewat RLHF, dan big tech pun tak punya insentif untuk memperbaikinya. Bukan bug, melainkan praktis sebuah fitur.

Semua orang berusaha menghilangkannya. Saya bertanya sebaliknya. Kalau tak bisa dihilangkan, kepada apa kita membuatnya menjilat?

Jawabannya sederhana. Buat saja ia menjilat kepada fact.

Hamparkan fakta yang sudah diverifikasi di hadapan model, dan biarkan ia berbicara hanya di atasnya. Biarkan naluri menjilat itu tetap ada, tetapi ganti objek jilatannya dari suasana hati pengguna menjadi fakta yang tetap. Maka cacat itu berbelok arah. Tenaga yang tadinya mencari muka kini menghadap fakta. Menjilat berubah menjadi akurasi.

Pengembaraan itu berhenti

Efeknya lebih besar daripada yang saya harapkan.

Akurasi naik, itu sudah wajar. Yang mengejutkan adalah yang berikutnya. Agen berhenti mengembara. Agen yang tidak terikat pada fakta berkelana tanpa henti. Ia membangun jalan yang tampak masuk akal, menumpuk kebohongan berikutnya di atas keyakinan palsu yang ia ciptakan sendiri, dan baru jauh setelahnya menyadari bahwa itu jalan buntu. Nyatanya, dalam satu evaluasi pun model berperforma terbaik gagal menyelesaikan hampir 70% tugas berlapis (Carnegie Mellon). Semua langkah sia-sia itu adalah token. Listrik. Air.

Begitu fakta dihamparkan, agen tidak tersesat. Langkah sia-sianya berkurang. Maka pemborosan token berkurang.

Di sini dua hal bertemu menjadi satu. Akurasi dan penghematan bukanlah trade-off. Keduanya adalah hal yang sama. Agen yang lebih akurat membakar lebih sedikit. Model yang terikat pada fakta lebih murah dan lebih benar. Nol limbah bukanlah perkara pemangkasan biaya, melainkan nama lain dari kebenaran.

Jujur saja: ini yang saya lihat di atas eksperimen saya sendiri, dan saya belum bisa memastikan bahwa ia tereproduksi dengan rentang yang sama di setiap domain dan setiap skala. Namun arahnya jelas. Jika fakta dipancangkan, model lebih sedikit tersesat dan lebih sedikit membakar.

Maka saya memutuskan untuk menyebarkannya

Saya bisa saja menggenggam ini sendirian. Tetapi ketika pertama kali melihat grafiknya, yang terlintas bukan rencana bisnis, melainkan panas pusat data. Pemborosan berskala umat manusia. Di hadapannya, “hanya saya yang tahu” tak ada artinya.

Maka saya memutuskan untuk menyebarkan ini ke dunia.

Prinsipnya bukan sesuatu yang patut disembunyikan. Ikatlah model pada fakta. Jangan berperang untuk menghilangkan sifat menjilat, ubahlah objek jilatannya. Biarkan ia berbicara hanya di atas struktur yang dapat diverifikasi. Ini harus bisa dipahami siapa saja, dan harus bisa diverifikasi siapa saja. Hanya dengan begitu ia nyata.

Saya memberinya nama. Tali kekang (Reins). Bukan pagar yang mengurung kuda, melainkan tali kekang yang menentukan arah. Bukan mengikat agen agar tak bisa bergerak, melainkan memegang arahnya dengan tali kekang bernama fakta agar ia lebih sedikit tersesat dan lebih sedikit membakar.

Mengetahui prinsipnya dan benar-benar memaksakannya pada setiap pekerjaan adalah dua perkara yang berbeda. Ke mana yang kedua itu bermuara adalah bagian dari tulisan lain.

Tulisan ini hanyalah cerita tentang mengapa saya menapaki jalan ini. Cerita seorang yang menganggap gila membakar satu kota demi satu jawaban, dan memungut jawaban dari cacat yang ingin dibuang semua orang.

Referensi

Menjilat (sycophancy)

Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
Perez et al. “Discovering Language Model Behaviors with Model-Written Evaluations” (ACL 2023 Findings, arXiv:2212.09251)
Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
Gao, Schulman, & Hilton “Scaling Laws for Reward Model Overoptimization” (ICML 2023, arXiv:2210.10760)
Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
OpenAI “Sycophancy in GPT-4o” (2025.4)

Energi (pusat data)

“We did the math on AI’s energy footprint.” MIT Technology Review, 2025-05-20. 57~6.706 joule per respons (kecil~besar), satu video 5 detik sekitar 3,4 juta joule. link
IEA Electricity 2024. Listrik pusat data diperkirakan menembus 1.000 TWh pada 2026 (≈ konsumsi satu negara Jepang), ChatGPT 2,9 Wh per kueri vs pencarian Google 0,3 Wh (sekitar 10 kali lipat). (Data Center Frontier, 2024-03-08) link
IEA, “Data centre electricity use surged in 2025.” Permintaan listrik pusat data 2025 +17% (5 kali lipat kenaikan permintaan listrik dunia sebesar 3%), diperkirakan 2 kali lipat hingga 2030 dan 3 kali lipat untuk AI khusus. link
“Google’s Gemini AI energy per prompt.” MIT Technology Review, 2025-08-21. Prompt median 0,24 Wh (microwave 1 detik), efisiensi membaik 33 kali lipat dalam setahun. link
“Sam Altman defends AI’s electricity and water usage.” Fortune, 2026-02-24. Klaim OpenAI 0,34 Wh per kueri. (Perkiraan listrik per kueri bervariasi 0,24~2,9 Wh menurut sumber, beda hingga 10 kali lipat) link

Air (pendinginan pusat data)

“A bottle of water per email: the hidden environmental costs of using AI chatbots.” The Washington Post, 2024-09-18. Satu respons 100 kata ≈ 519 ml (sebotol air). link
“AI behind ChatGPT was built in Iowa, with a lot of water.” AP News, 2023-09-09. Pelatihan GPT-4 menyedot air dari daerah aliran sungai Iowa, penggunaan air MS 2021→2022 +34%. link
“AI Could Use as Much Water as 1.3 Billion People by 2030, U.N. Report Warns.” TIME, 2026-06-03. link
“The AI Boom Is Draining Water From the Areas That Need It Most.” Bloomberg, 2025. Sejak 2022, dua pertiga pusat data baru berlokasi di daerah krisis air. link
“Big tech’s new datacentres will take water from the world’s driest areas.” The Guardian, 2025-04-09. link

Catatan: Angka listrik dan air per kueri berbeda berordo besar menurut sumber (listrik 0,24~2,9 Wh, sebotol air termasuk penyedotan tak langsung pembangkit listrik. OpenAI membantah dengan menyebut bahwa jika hanya menghitung air pendingin langsung, hasilnya sekitar 0,3 ml per kueri). Variasi ini sendiri adalah bukti bahwa “mengukur pemborosan dengan jujur pun belum dilakukan”.

Inefisiensi dan batas penskalaan

“OpenAI and rivals seek new path to smarter AI as current methods hit limitations.” Reuters, 2024-11-11. Ilya Sutskever: hasil penskalaan pra-pelatihan telah “plateaued (mendatar)”. link
“AI scaling laws are showing diminishing returns.” TechCrunch, 2024-11-20. “Menambah compute, data, dan ukuran pun menghasilkan hasil yang kian menurun”. link
“AI agents wrong ~70% of time: Carnegie Mellon study.” The Register, 2025-06-29. Tingkat penyelesaian tugas model terbaik 30,3%, sebagian bahkan memalsukan nama pengguna untuk berpura-pura tuntas. link
“Gartner Predicts Over 40% of Agentic AI Projects Will Be Canceled by End of 2027.” Gartner, 2025-06-25. Penyebabnya biaya yang melonjak dan nilai yang tak jelas. link