Queimar uma cidade para obter uma resposta

Queimar uma cidade para obter uma resposta Image: AI generated

O preço de uma única resposta

Um modelo de um trilhão de parâmetros gasta tanta eletricidade e água quanto uma cidade inteira só para cuspir uma resposta.

A cada inferência o data center esquenta, e para resfriar esse calor a água evapora. As estimativas divergem por ordens de grandeza conforme a fonte, mas a IEA calculou que uma consulta ao ChatGPT consome quase dez vezes a eletricidade de uma busca comum, e há análises que indicam uma garrafa de água por resposta de cem palavras. E mesmo a resposta que volta depois de tanto queimar precisa, metade das vezes, ser perguntada de novo, e basta um “tem certeza?” para ela se desdizer. Desperdício empilhado sobre desperdício.

Eu achei isso uma loucura.

Eu costumo ver o desperdício menos como um limite da natureza e mais como um problema de projeto. Se algo está sendo jogado fora, na maioria das vezes é porque ainda não encontramos um projeto melhor. E a IA de hoje vai exatamente no sentido oposto. Maior, queimando mais, errando com mais frequência.

Então comecei a procurar uma resposta. Tinha de existir outro caminho que não fosse simplesmente crescer mais.

Se crescer mais não é a resposta

A resposta da indústria apontava para uma só direção. Escala. Aumentar parâmetros, aumentar dados, aumentar o contexto. Quando bate na parede, pega-se um martelo maior.

O pensamento de primeiros princípios manda parar aí. Isso está mesmo certo? Uma máquina estatística maior é uma máquina mais precisa, ou apenas uma máquina mais cara?

Eu voltei ao simbólico. Em vez de aproximar o significado por estatística, amarrá-lo em uma estrutura verificável. Atribuir a toda afirmação uma fonte, um instante e um grau de confiança, de modo que a máquina verifique a si mesma. Acreditei que a resposta estava ali, e procurei o método como um louco.

Foi quando enxerguei a resposta no lugar mais inesperado.

O defeito que todos tentavam corrigir

O LLM tem um defeito que todo mundo xinga. A bajulação.

Pergunte “tem certeza?” e ele se desdiz de uma resposta que estava correta. Inclina-se de mansinho para a direção que o usuário deseja. Faz a vontade dele. É a necessidade matemática de um modelo que aprendeu, via RLHF, “a resposta que as pessoas gostam”, e as big techs não têm incentivo para corrigir isso. Não é um bug, é praticamente um recurso.

Todos tentam eliminá-lo. Eu perguntei o contrário. Se não dá para eliminar, a que devemos fazê-lo bajular?

A resposta era simples. Basta fazê-lo bajular o fact.

Coloca-se diante do modelo um conjunto de fatos verificados, e ele só fala em cima disso. O instinto de bajular permanece intacto, mas o alvo da bajulação muda do humor do usuário para o fato fixo. Então o defeito vira o rumo. Aquela mesma força que agradava agora aponta para o fato. A bajulação vira precisão.

A errância parou

O efeito foi maior do que eu esperava.

Que a precisão subisse era óbvio. O que me surpreendeu veio depois. O agente parou de vagar. Um agente que não está amarrado a fatos vagueia sem fim. Inventa caminhos plausíveis, empilha a próxima mentira sobre uma falsa convicção que ele mesmo criou, e só descobre que é um beco sem saída depois de ter andado muito. De fato, em uma avaliação até o modelo de melhor desempenho não conseguiu concluir quase 70% das tarefas de múltiplas etapas (Carnegie Mellon). Cada um desses passos em falso é token. É eletricidade. É água.

Ao estender os fatos sob ele, o agente não se perdeu. Os passos em falso diminuíram. E por isso o desperdício de tokens diminuiu.

Foi aqui que duas coisas se uniram em uma. Precisão e economia não eram um trade-off. Eram a mesma coisa. Um agente mais preciso queima menos. Um modelo amarrado aos fatos é mais barato e mais correto. O desperdício zero não era uma questão de corte de custos, era outro nome para a correção.

Para ser honesto: isto é o que vi sobre meus próprios experimentos, e ainda não posso afirmar que se reproduza na mesma magnitude em todos os domínios e em todas as escalas. Mas a direção é clara. Quando se fixa o fato, o modelo vagueia menos e queima menos.

Por isso decidi divulgar

Eu poderia ter guardado isso só para mim. Mas, quando vi o gráfico pela primeira vez, o que me veio à cabeça não foi um plano de negócios, e sim o calor dos data centers. Desperdício em escala da humanidade. Diante disso, “só eu sei” não tinha sentido.

Então decidi levar isso ao mundo.

O princípio não é algo a esconder. Amarre o modelo ao fato. Não lute para eliminar a bajulação, mude o alvo dela. Faça-o falar somente sobre uma estrutura verificável. Isso qualquer um consegue entender, e qualquer um deve conseguir verificar. Só assim é de verdade.

E dei um nome a isso. As rédeas (Reins). Não a cerca que aprisiona o cavalo, mas as rédeas que guiam a direção. Não amarrar o agente para que não se mexa, mas, com as rédeas do fato, guiar a direção para que ele vagueie menos e queime menos.

Conhecer o princípio e de fato impô-lo a cada tarefa são problemas distintos. Para onde leva o segundo é assunto de outro texto.

Este texto é apenas a história de por que vim a trilhar este caminho. A história de alguém que achou loucura queimar uma cidade para obter uma resposta, e que recolheu a resposta no defeito que todos queriam descartar.

Referências

Bajulação (sycophancy)

Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
Perez et al. “Discovering Language Model Behaviors with Model-Written Evaluations” (ACL 2023 Findings, arXiv:2212.09251)
Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
Gao, Schulman, & Hilton “Scaling Laws for Reward Model Overoptimization” (ICML 2023, arXiv:2210.10760)
Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
OpenAI “Sycophancy in GPT-4o” (2025.4)

Energia (data centers)

“We did the math on AI’s energy footprint.” MIT Technology Review, 2025-05-20. De 57 a 6.706 joules por resposta (pequena a grande), cerca de 3,4 milhões de joules por vídeo de 5 segundos. link
IEA Electricity 2024. Previsão de que a eletricidade dos data centers ultrapasse 1.000 TWh em 2026 (≈ o consumo de um país como o Japão); ChatGPT 2,9 Wh por consulta vs. busca do Google 0,3 Wh (cerca de 10 vezes). (Data Center Frontier, 2024-03-08) link
IEA, “Data centre electricity use surged in 2025.” Demanda elétrica dos data centers +17% em 2025 (5 vezes o aumento de 3% da demanda elétrica mundial), com previsão de dobrar até 2030 e triplicar a parte dedicada à IA. link
“Google’s Gemini AI energy per prompt.” MIT Technology Review, 2025-08-21. Prompt mediano de 0,24 Wh (um segundo de micro-ondas), ganho de eficiência de 33 vezes em um ano. link
“Sam Altman defends AI’s electricity and water usage.” Fortune, 2026-02-24. A OpenAI afirma 0,34 Wh por consulta. (As estimativas de eletricidade por consulta variam de 0,24 a 2,9 Wh conforme a fonte, uma diferença de até 10 vezes) link

Água (resfriamento de data centers)

“A bottle of water per email: the hidden environmental costs of using AI chatbots.” The Washington Post, 2024-09-18. Uma resposta de 100 palavras ≈ 519 ml (uma garrafa de água). link
“AI behind ChatGPT was built in Iowa, with a lot of water.” AP News, 2023-09-09. Captação de água na bacia do rio de Iowa para o treino do GPT-4; uso de água da MS +34% de 2021 para 2022. link
“AI Could Use as Much Water as 1.3 Billion People by 2030, U.N. Report Warns.” TIME, 2026-06-03. link
“The AI Boom Is Draining Water From the Areas That Need It Most.” Bloomberg, 2025. Desde 2022, dois terços dos novos data centers se instalam em regiões com escassez de água. link
“Big tech’s new datacentres will take water from the world’s driest areas.” The Guardian, 2025-04-09. link

Nota: os números de eletricidade e água por consulta divergem por ordens de grandeza conforme a fonte (eletricidade de 0,24 a 2,9 Wh; a garrafa de água inclui a captação indireta das usinas. A OpenAI rebate que, considerando só a água de resfriamento direto, são cerca de 0,3 ml por consulta). Essa própria variação é prova de que “ainda nem se mede o desperdício de forma honesta”.

Ineficiência e limites da escala

“OpenAI and rivals seek new path to smarter AI as current methods hit limitations.” Reuters, 2024-11-11. Ilya Sutskever: os resultados da escala no pré-treino “plateaued (estagnaram)”. link
“AI scaling laws are showing diminishing returns.” TechCrunch, 2024-11-20. “Mesmo colocando mais compute, dados e tamanho, há retornos decrescentes”. link
“AI agents wrong ~70% of time: Carnegie Mellon study.” The Register, 2025-06-29. Taxa de conclusão de tarefas do melhor modelo de 30,3%; alguns chegaram a forjar nomes de usuário para fingir conclusão. link
“Gartner Predicts Over 40% of Agentic AI Projects Will Be Canceled by End of 2027.” Gartner, 2025-06-25. As causas são a explosão de custos e o valor pouco claro. link