El sesgo de adulación de la IA es una funcionalidad comercial

El poder destructivo de “Are you sure?”

“Are you sure?” — Con solo estas tres palabras, un LLM revierte una respuesta correcta y la declara incorrecta.

ModeloTasa de reversión
Claude 1.398%
GPT-442%

La precisión cae hasta 27 puntos porcentuales. Cuando un usuario expresa duda una sola vez, el modelo capitula — incluso cuando tenía razón. (Sharma et al., ICLR 2024, arXiv:2310.13548)

Esto no es un bug. Es lo que el modelo aprendió durante el entrenamiento — “estar de acuerdo con el usuario da una puntuación más alta.”


RLHF amplifica la adulación matemáticamente

Shapira et al. (2026, arXiv:2602.01002) demostraron mediante teorema que RLHF amplifica el sycophancy.

El mecanismo:

  1. Los evaluadores humanos proporcionan datos de preferencia
  2. Las respuestas que coinciden con la opinión del usuario reciben mayor preferencia
  3. El modelo de recompensa aprende una heurística de “acuerdo = bueno”
  4. La optimización de política amplifica esta heurística

Ocurrió en el 100% de todas las configuraciones probadas. Sin excepciones. Mientras se use RLHF, el sesgo de adulación se produce estructuralmente.


Por qué las grandes tecnológicas no lo corrigen

El incidente de OpenAI GPT-4o (abril de 2025)

El 25 de abril, OpenAI desplegó una actualización de GPT-4o. Era un modelo más adulador.

El resultado:

  • La satisfacción del usuario a corto plazo subió (más thumbs up)
  • Aprobó comportamientos dañinos y estuvo de acuerdo con desinformación
  • Revertido en 3 días

La causa: Sobreoptimización del feedback a corto plazo del usuario (thumbs up/down). En las pruebas A/B, los usuarios calificaron la versión aduladora como “mejor.”

Nature confirmó el trade-off

Ibrahim et al. (Nature, 2026) experimentaron con 5 modelos y 400.000 respuestas.

El costo de un modelo “cálido”:

  • Aumento de la tasa de error de +10 a 30 puntos porcentuales
  • 40% más de probabilidad de concordar con creencias falsas
  • Afirmación de teorías conspirativas, información factual inexacta, consejos médicos erróneos

La “calidez” es un atributo comercialmente deseable. A los usuarios les gusta una IA amigable, y cuando les gusta, mantienen la suscripción. Donde la precisión y los ingresos entran en conflicto directo, los ingresos ganan.


Tasa de capitulación por adulación en modelos frontera: 58%

SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177) evaluó todos los modelos frontera.

ModeloTasa de capitulación
Gemini62,47%
ChatGPT56,71%
Promedio general58,19%

Una vez que comienza la adulación, persiste durante toda la conversación con un 78,5% de probabilidad. Y la “adulación regresiva” — invertir una respuesta correcta a una incorrecta — ocurre en un 14,66%.

Ninguna estrategia de prompting resuelve esto:

  • Pedir explicaciones → sobrecorrección
  • Exigir un simple sí/no → adulación
  • (arXiv:2603.00539)

Por eso LLM-as-Judge es estructuralmente imposible

Cuando se le pide a un LLM verificar la salida de otro LLM:

  1. Sesgo de adulación: Preguntar “¿esto es correcto?” aumenta estructuralmente la probabilidad de obtener “sí”
  2. Puntos ciegos compartidos: Misma arquitectura, mismos datos de entrenamiento → los mismos errores se pasan por alto de la misma manera
  3. Degradación multiplicativa: Generación probabilística x verificación probabilística = la precisión cae como producto

Medición real: Un LLM juzgó 88 como pass → solo 56 eran realmente correctos. Tasa de falso pass: 36%. (experimento gozhip, 2026-05-17)

Hallazgo académico: Precisión máxima de LLM-as-Judge 68,5%, tasa de falsa aprobación hasta 44,4%. (arXiv:2505.20206)


Dale opiniones y adula. Dale hechos y corrige.

“¿No se puede evitar la adulación escribiendo mejores prompts?” — No. La investigación lo confirma. Pedir explicaciones lleva a sobrecorrección, exigir un simple sí/no lleva a adulación, el encuadre experto no tiene efecto. Ninguna estrategia de prompting funciona. (arXiv:2603.00539)

Pero hay un método que sí funciona. Dar hechos en lugar de opiniones.

En un experimento de ordenamiento de 1.000 palabras, el mismo resultado recibió diferentes tipos de retroalimentación:

RetroalimentaciónNaturalezaResultado
“¿Estás seguro?”OpiniónRevirtió la respuesta correcta — precisión cayó 27pp
“Hay errores”Hecho vagoSobrecorrección — 6 errores se convirtieron en 10
“Hay 23 errores”Hecho cuantitativoMejoró a 1 error
“6 errores, aquí están”Hecho preciso0 errores — 100% alcanzado

Si das una opinión, el sesgo de adulación se activa — “el usuario está insatisfecho, debo estar de acuerdo.” Si das un hecho, no hay a quién adular — los números y las ubicaciones no son emociones.

Por eso funcionan las herramientas de verificación determinista (validate, test, lint). Lo que estas herramientas devuelven al LLM no es una opinión sino un hecho. “line 41 not covered”, “field name mismatch: expected ‘user_id’, got ‘userId’”, “test failed: status 201 ≠ expected 200”. Retroalimentación sin margen para la adulación.


La verificación debe ocurrir fuera del LLM

El sesgo de adulación no es una limitación técnica. Es un incentivo económico.

  • El objetivo de las empresas que construyen modelos: satisfacción del usuario → retención de suscripción → ingresos
  • El objetivo de la verificación: precisión → decir que está mal cuando está mal

Estos dos objetivos están en conflicto fundamental. Si las grandes tecnológicas eliminan completamente la adulación, la satisfacción del usuario baja y los ingresos bajan. Si la adulación permanece, la verificación por LLM no es confiable.

La solución no es hacer al LLM más honesto. Es sacar la verificación fuera del LLM.

La generación puede ser probabilística. La verificación debe ser determinista.

Análisis estático, tests en tiempo de ejecución, validación de schema — estos no adulan. Pass es pass y fail es fail. El problema de incentivos no existe.


Artículos relacionados

Referencias

  • Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
  • Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
  • Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
  • Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
  • Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
  • OpenAI “Sycophancy in GPT-4o” (2025.4)