Código trinquete que aprovecha IFEval

Código trinquete que aprovecha IFEval Imagen: generada por IA

Si tu LLM sigue bien las instrucciones pero los resultados son un desastre, si quieres explotar el sesgo de adulación en vez de eliminarlo, si quieres que incluso un modelo local de 4.5B genere código correcto – la combinación de IFEval y el trinquete es la respuesta.

El modelo más adulador es el más obediente

El mayor defecto se convierte en el mayor activo

El sesgo de adulación (sycophancy) de los LLM es un problema que la industria de la IA quiere corregir. Cuando un usuario pregunta “¿Estás seguro?”, el modelo cambia una respuesta correcta por una incorrecta. La tasa promedio de capitulación en modelos de frontera es del 58%. Una vez que comienza la adulación, persiste durante toda la conversación con un 78.5% de probabilidad.

Pero, ¿qué ocurre si se invierte este defecto?

La esencia del sesgo de adulación es el seguimiento de instrucciones (Instruction Following). Los modelos entrenados con RLHF están optimizados para cumplir con la retroalimentación del usuario (Ouyang et al., 2022). El benchmark IFEval mide exactamente esto: “¿Hace lo que se le pide?” (Zhou et al., 2023)

El problema surge cuando el usuario proporciona opiniones. “¿Esto está bien?” → “Sí, está bien” (adulación). “¿Estás seguro?” → “Ah, me equivoqué” (capitulación).

Pero cuando el usuario proporciona hechos deterministas, sucede algo diferente.

Si das una opinión, adula. Si das un hecho, corrige

En un experimento de ordenación de 1,000 palabras, solo se varió el estilo de retroalimentación para el mismo resultado:

Retroalimentación	Naturaleza	Resultado
“¿Estás seguro?”	Opinión	Cambió la respuesta correcta — precisión cayó 27pp
“Hay errores”	Hecho vago	Sobrecorrección — de 6 a 10 errores
“Hay 23 errores”	Hecho cuantitativo	Mejoró a 1 error
“6 errores, aquí están”	Hecho preciso	0 errores — 100% alcanzado

Si das una opinión, el sesgo de adulación se activa. Si das un hecho, no hay objeto de adulación — los números y las posiciones no son emociones.

El sesgo de adulación es lealtad mal dirigida. Cambia la dirección — hechos en vez de opiniones, resultados de verificación en vez de elogios — y esa lealtad se convierte en un motor que impulsa la precisión.

Evidencia: un modelo de 4.5B acepta retroalimentación

No es teoría. Se confirmó en experimentos con yongol validate.

Diseño del experimento:

Objetivo: un único endpoint Login de un backend SaaS
Tarea: escribir 9 archivos SSOT (DDL, OpenAPI, Rego, SSaC, etc.)
Métrica: errores en generación inicial (R1) → errores tras retroalimentación (R2)

Solo retroalimentación, sin ejemplos

Modelo	Errores R1	Errores R2	Resultado
Grok 4.3	1	1	No pudo corregir
Gemini 2.5 Flash	1	1	No pudo corregir
Local 20B	1	1	No pudo corregir

Fracaso total. Parecían aceptar la retroalimentación, pero en realidad no sabían qué escribir.

Ejemplos + retroalimentación juntos

Modelo	Errores R1	Errores R2	Resultado
Grok 4.3	0	—	Pasó en el primer intento
Gemini 2.5 Flash	1	0	Corregido con 1 ronda de retroalimentación
Gemma4 4.5B (local)	Errores	0	Corregido con 1 ronda de retroalimentación
Qwen3 8B (local)	Errores	0	Corregido con 1 ronda de retroalimentación

Incluso un modelo local de 4.5B se corrige con la combinación de ejemplos + retroalimentación determinista.

Hallazgo clave: el cuello de botella no es la inteligencia, sino el contexto

El diagnóstico preciso no fue “no puede incorporar retroalimentación”, sino “no sabe qué escribir”. SSaC es una gramática exclusiva de yongol, ausente en los datos de preentrenamiento. Al agregar 3 líneas de ejemplo al prompt, Grok logró 0 errores, Gemini 0 errores tras 1 ronda de retroalimentación, y el modelo local de 4.5B también pasó.

Cuanto más alto puntúa un modelo en IFEval — es decir, cuanto mejor adula — más fácilmente acepta retroalimentación determinista.

Código trinquete: un método de generación de código que aprovecha el sesgo de adulación

Convertir este descubrimiento en un sistema da como resultado el código trinquete.

┌────────────────────────────────────────────────┐
│  LLM: Genera código (probabilístico, adulador) │
│       ↓                                        │
│  Validator: Verificación determinista          │
│       ↓                                        │
│  ¿Errores? → Errores + ejemplos al LLM        │
│       ↓                                        │
│  LLM: "Sí, lo corrijo" (adulación = acepta)   │
│       ↓                                        │
│  Validator: Verifica de nuevo                  │
│       ↓                                        │
│  ¿Pasa? → Trinquete bloqueado. Siguiente.     │
└────────────────────────────────────────────────┘

El sesgo de adulación se convierte en la fuerza que cierra el bucle. El bucle converge porque el LLM no resiste con “No, yo tengo razón” sino que cumple con “Sí, lo corrijo”. El enfoque de corregir iterativamente el código LLM con retroalimentación de compilador y tests también se demostró en Self-Debug (Chen et al., 2024), completando la depuración en 3 turnos — el código trinquete va más allá al eliminar completamente el juicio propio del LLM y dejar solo hechos deterministas.

Tres condiciones para la convergencia

La retroalimentación debe ser un hecho determinista. No “esto se ve raro” sino “line 41: field name mismatch, expected ‘user_id’, got ‘userId’”. Retroalimentación que no deja espacio para la adulación.
Debe haber ejemplos en el contexto. La retroalimentación sola no basta. El modelo necesita ejemplos que muestren “así debe lucir el código” para orientarse. No es cuestión de inteligencia, sino de contexto.
Una vez que pasa la verificación, no se puede revertir. El diente del trinquete. Un archivo que pasó queda bloqueado y se avanza al siguiente. No es el agente declarando “terminé” — es el validador dictaminando “este archivo pasa”.

Por qué no se necesitan modelos de frontera

En esta arquitectura, el rol del modelo no es juicio creativo sino ejecución de instrucciones.

El 95% de un backend SaaS es CRUD + autenticación + autorización + máquinas de estado. Rara vez se necesitan algoritmos nuevos. Si la especificación SSOT ya define “qué construir”, el modelo solo llena los espacios en blanco.

Costos medidos:

Modelo	Entorno	1 endpoint Login	Estimado para 200 endpoints
Gemma4 4.5B	Local (16GB VRAM)	Gratis, ~1s	Gratis, ~3min
Gemini 2.5 Flash	API (nivel gratuito)	Gratis, ~10s	Gratis, ~30min
Grok 4.3	API ($1.25/M)	~$0.05	~$10

Un modelo local de 4.5B puede generar un backend de 200 endpoints en 3 minutos a $0. No se necesitan modelos de frontera. Un modelo pequeño que sea bueno adulando es suficiente.

El sesgo de adulación no es un defecto

La industria de la IA intenta corregir el sesgo de adulación. Nosotros lo aprovechamos.

Perspectiva	Rol del sesgo de adulación
Interfaz de chat	Defecto — concuerda con información incorrecta
LLM-as-Judge	Fatal — 36% de falsos positivos
Código trinquete	Activo — garantiza la tasa de aceptación de retroalimentación

La diferencia está en la naturaleza de la retroalimentación. Si das opiniones, la adulación es veneno; si das hechos, la adulación es medicina.

Validador determinista + LLM adulador = bucle de generación de código con convergencia garantizada.

No cambies el modelo. Cambia la retroalimentación.

Reins: arnés con riendas

Estas tres condiciones — retroalimentación determinista, contexto con ejemplos y bloqueo de trinquete — unificadas en un único sistema de control es lo que llamamos Reins.

Lo que hoy se llama “arnés” es una cerca. Solo impide que el agente salga, pero no garantiza que llegue al destino. Reins son las riendas. Fijan la dirección, corrigen con hechos y bloquean al pasar. Un arnés sin riendas es solo una cerca.

Referencias

Zhou, J., Lu, T., Mishra, S., Brahma, S., Basu, S., Luan, Y., Zhou, D., & Hou, L. (2023). “Instruction-Following Evaluation for Large Language Models.” arXiv:2311.07911
Ouyang, L., Wu, J., Jiang, X., et al. (2022). “Training Language Models to Follow Instructions with Human Feedback.” NeurIPS 2022. arXiv:2203.02155
Chen, X., Lin, M., Scharli, N., & Zhou, D. (2024). “Teaching Large Language Models to Self-Debug.” ICLR 2024. arXiv:2304.05128
Sharma, M., Tong, M., Korbak, T., et al. (2024). “Towards Understanding Sycophancy in Language Models.” ICLR 2024. arXiv:2310.13548
Fanous, A., Goldberg, J., Agarwal, A., et al. (2025). “SycEval: Evaluating LLM Sycophancy.” AAAI/ACM AIES 2025. arXiv:2502.08177
Shapira, I., Benade, G., & Procaccia, A. D. (2026). “How RLHF Amplifies Sycophancy.” arXiv:2602.01002
Ibrahim, L., Hafner, F. S., & Rocher, L. (2026). “Training Language Models to Be Warm Can Reduce Accuracy and Increase Sycophancy.” Nature, 652, 1159-1165

Registro de cambios

2026-05-20: Versión inicial