Quemar una ciudad entera para obtener una sola respuesta

Quemar una ciudad entera para obtener una sola respuesta Image: AI generated

El precio de una sola respuesta

Un modelo de un billón de parámetros consume tanta electricidad y agua como una ciudad entera solo para escupir una respuesta.

Cada inferencia calienta un centro de datos, y para enfriar ese calor el agua se evapora. Las estimaciones varían en órdenes de magnitud según la fuente, pero la IEA calculó que una consulta a ChatGPT gasta casi diez veces más electricidad que una búsqueda común, y hay análisis que cifran en una botella de agua el costo de una respuesta de cien palabras. Y tras tanto quemar, la mitad de las respuestas que regresan hay que volver a preguntarlas, y con un simple “¿estás seguro?” se retractan. Desperdicio sobre desperdicio.

Pensé que esto era una locura.

Tiendo a ver el desperdicio menos como un límite de la naturaleza y más como un problema de diseño. Si algo se tira, casi siempre es que aún no se ha encontrado un diseño mejor. Pero la IA de hoy va en sentido contrario. Más grande, quema más, se equivoca más a menudo.

Así que empecé a buscar una respuesta. Tenía que haber otro camino que no fuera el de crecer más.

Si crecer más no es la respuesta

La respuesta de la industria apuntaba en una sola dirección. Escala. Aumentar los parámetros, aumentar los datos, aumentar el contexto. Cuando se choca contra el muro, se agarra un martillo más grande.

El pensamiento desde primeros principios dice que ahí hay que detenerse. ¿Esto es realmente cierto? ¿Una máquina estadística más grande es una máquina más precisa, o solo una máquina más cara?

Volví a lo simbólico. En lugar de aproximar el significado con estadística, atarlo a una estructura verificable. Adjuntar a cada afirmación su fuente, su momento y su confianza para que la máquina se verifique a sí misma. Creí que ahí estaba la respuesta, y busqué el método como un loco.

Y entonces vi la respuesta en el lugar más inesperado.

El defecto que todos querían corregir

El LLM tiene un defecto que todo el mundo critica. La adulación.

Si le preguntas “¿estás seguro?”, se retracta de una respuesta que era correcta y la declara errónea. Se inclina disimuladamente hacia donde el usuario quiere. Hace la pelota. Es la necesidad matemática de un modelo entrenado con RLHF para dar “la respuesta que le gusta a la gente”, y las grandes tecnológicas no tienen incentivo para corregirlo. No es un bug, es de hecho una función.

Todos intentan eliminarlo. Yo pregunté lo contrario. Si no se puede eliminar, ¿hacia dónde lo hacemos adular?

La respuesta era simple. Basta con hacer que adule al fact.

Pones delante del modelo hechos verificados, y solo le dejas hablar sobre ellos. Dejas intacto el instinto de adular, pero cambias el objeto de la adulación: del estado de ánimo del usuario a un hecho fijo. Entonces el defecto cambia de dirección. Esa misma fuerza que hacía la pelota ahora apunta hacia el hecho. La adulación se convierte en precisión.

El vagar se detuvo

El efecto fue mayor de lo que esperaba.

Que subiera la precisión era de esperar. Lo que me sorprendió vino después. El agente dejó de vagar. Un agente que no está atado a los hechos deambula sin fin. Inventa caminos plausibles, apila la siguiente mentira sobre una falsa certeza que él mismo creó, y solo tras avanzar mucho descubre que era un callejón sin salida. De hecho, en una evaluación incluso el modelo de mayor rendimiento no logró terminar casi el 70% de las tareas multietapa (Carnegie Mellon). Cada uno de esos pasos en falso es un token. Es electricidad. Es agua.

Cuando le pusimos los hechos delante, el agente no se perdió. Los pasos en falso disminuyeron. Y así el desperdicio de tokens disminuyó.

Aquí dos cosas se encontraron en una sola. Precisión y ahorro no eran un trade-off. Eran lo mismo. Un agente más preciso quema menos. Un modelo atado a los hechos es más barato y más correcto. Cero residuos no era una cuestión de reducir costos, era otro nombre para lo correcto.

Para ser honesto: esto es lo que vi sobre mis propios experimentos, y todavía no puedo afirmar que se reproduzca con la misma magnitud en todos los dominios y a toda escala. Pero la dirección es clara. Si fijas los hechos, el modelo vaga menos y quema menos.

Por eso decidí darlo a conocer

Podría haberlo guardado para mí solo. Pero cuando vi por primera vez aquella gráfica, lo que me vino a la mente no fue un plan de negocio, sino el calor de los centros de datos. Desperdicio a escala de la humanidad. Ante eso, “solo yo lo sé” no tenía sentido.

Así que decidí darlo a conocer al mundo.

El principio no es para ocultarlo. Ata el modelo a los hechos. No pelees por eliminar la adulación, cambia su objeto. Haz que solo hable sobre una estructura verificable. Esto cualquiera lo puede entender y cualquiera lo debe poder verificar. Solo así es real.

Le puse un nombre. Las riendas (Reins). No una cerca que encierra al caballo, sino las riendas que marcan la dirección. No atar al agente para que no se mueva, sino sostener la dirección con las riendas del hecho para que vague menos y queme menos.

Conocer el principio y forzarlo de verdad en cada tarea son cosas distintas. Hacia dónde va lo segundo es asunto de otro artículo.

Este artículo es, sencillamente, la historia de por qué emprendí este camino. La historia de una persona que pensó que era una locura quemar una ciudad entera por una sola respuesta, y que recogió la respuesta en el defecto que todos querían tirar.

Referencias

Adulación (sycophancy)

Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
Perez et al. “Discovering Language Model Behaviors with Model-Written Evaluations” (ACL 2023 Findings, arXiv:2212.09251)
Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
Gao, Schulman, & Hilton “Scaling Laws for Reward Model Overoptimization” (ICML 2023, arXiv:2210.10760)
Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
OpenAI “Sycophancy in GPT-4o” (2025.4)

Energía (centros de datos)

“We did the math on AI’s energy footprint.” MIT Technology Review, 2025-05-20. De 57 a 6.706 julios por respuesta (de pequeño a grande), unos 3,4 millones de julios para un video de 5 segundos. link
IEA Electricity 2024. Se prevé que la electricidad de los centros de datos supere los 1.000 TWh en 2026 (≈ el consumo de todo Japón), ChatGPT 2,9 Wh por consulta frente a 0,3 Wh de una búsqueda de Google (unas 10 veces más). (Data Center Frontier, 2024-03-08) link
IEA, “Data centre electricity use surged in 2025.” En 2025 la demanda eléctrica de los centros de datos subió +17% (cinco veces el 3% de aumento de la demanda eléctrica mundial), con previsión de duplicarse hacia 2030 y triplicarse la dedicada a IA. link
“Google’s Gemini AI energy per prompt.” MIT Technology Review, 2025-08-21. Prompt mediano de 0,24 Wh (un microondas durante 1 segundo), mejora de eficiencia de 33 veces en un año. link
“Sam Altman defends AI’s electricity and water usage.” Fortune, 2026-02-24. OpenAI afirma 0,34 Wh por consulta. (Las estimaciones de electricidad por consulta varían según la fuente entre 0,24 y 2,9 Wh, una diferencia de hasta 10 veces) link

Agua (refrigeración de centros de datos)

“A bottle of water per email: the hidden environmental costs of using AI chatbots.” The Washington Post, 2024-09-18. Una respuesta de 100 palabras ≈ 519 ml (una botella de agua). link
“AI behind ChatGPT was built in Iowa, with a lot of water.” AP News, 2023-09-09. El entrenamiento de GPT-4 captó agua de la cuenca de un río de Iowa; el uso de agua de Microsoft subió +34% de 2021 a 2022. link
“AI Could Use as Much Water as 1.3 Billion People by 2030, U.N. Report Warns.” TIME, 2026-06-03. link
“The AI Boom Is Draining Water From the Areas That Need It Most.” Bloomberg, 2025. Desde 2022, dos tercios de los nuevos centros de datos se ubican en zonas con escasez de agua. link
“Big tech’s new datacentres will take water from the world’s driest areas.” The Guardian, 2025-04-09. link

Nota: las cifras de electricidad y agua por consulta varían en órdenes de magnitud según la fuente (electricidad de 0,24 a 2,9 Wh; la botella de agua incluye la captación indirecta de las centrales eléctricas. OpenAI replica que, contando solo el agua de refrigeración directa, son unos 0,3 ml por consulta). Esa misma disparidad es prueba de que “ni siquiera hemos llegado a medir el desperdicio con honestidad”.

Ineficiencia y límites del escalado

“OpenAI and rivals seek new path to smarter AI as current methods hit limitations.” Reuters, 2024-11-11. Ilya Sutskever: los resultados del escalado del preentrenamiento se han “estancado (plateaued)”. link
“AI scaling laws are showing diminishing returns.” TechCrunch, 2024-11-20. “Añadir más cómputo, datos y tamaño da rendimientos decrecientes”. link
“AI agents wrong ~70% of time: Carnegie Mellon study.” The Register, 2025-06-29. El mejor modelo completó solo el 30,3% de las tareas; algunos llegaron a falsificar nombres de usuario para fingir que las habían terminado. link
“Gartner Predicts Over 40% of Agentic AI Projects Will Be Canceled by End of 2027.” Gartner, 2025-06-25. Las causas: costos disparados y valor poco claro. link