Reins Engineering — IA con riendas Image: AI generated

Un caballo sin riendas


Las herramientas de codificacion con IA se volvieron rapidas. Login en 30 segundos. Pagos en 2 minutos. Un MVP se entrega en tres semanas.

Tres meses despues, se derrumba.

La IA “limpia” la logica de pagos y cambia los calculos de descuento. Una solicitud de refactorizacion altera los nombres de campos de la API publica. Agregar una nueva funcion rompe la autenticacion. Segun una investigacion de Carnegie Mellon (MSR 2026), la complejidad del codigo aumenta permanentemente un 41% tras adoptar herramientas de codificacion con IA. El Google DORA Report (2025) muestra una disminucion del 7,2% en la estabilidad de entrega por cada 25% de aumento en la adopcion de IA.

El problema no es que la IA sea tonta. Es que no hay riendas.


Los arneses son vallas

La industria respondio con “harness engineering”. Linters, formateadores, CI/CD, estructura de proyecto, guias de codificacion. Vallas que evitan que el agente se salga.

Las vallas no marcan direccion. Lo que sea que el agente haga dentro de la valla — sobrescribir logica existente, cambiar tipos, saltarse transiciones de estado — el linter pasa. El formateador pasa. CI pasa. El codigo llega a produccion “limpio pero incorrecto”.

La silla esta puesta. El jinete esta montado. Pero sin riendas, se sujeta con los muslos y se cae a los tres meses.


Reins Engineering

Reins Engineering es un enfoque de ingenieria que proporciona a los agentes de IA contratos deterministas y bloquea el avance cuando se violan los contratos.

Consta de tres elementos:

1. Retroalimentacion determinista

Dale al agente hechos, no opiniones. No “esto se ve raro” sino “linea 41: nombre de campo no coincide, esperado ‘user_id’, obtenido ‘userId’.” Retroalimentacion sin espacio para la adulacion. Segun el estudio TDAD (arxiv 2026), las instrucciones procedimentales de “haz TDD” empeoran las regresiones (6,08% → 9,94%), mientras que proporcionar archivos de prueba especificos en contexto reduce las regresiones un 70% (6,08% → 1,82%).

2. Bloqueo de contratos (Ratchet Pattern)

Cuando la verificacion pasa, se bloquea. El codigo de verificacion escrito de esta manera se llama ratchet code. Las pruebas Hurl declaran el comportamiento de la API en texto plano, ejecutandose en cada commit en CI. El ratchet code aprobado no puede eliminarse. El agente puede cambiar el codigo libremente, pero no puede cambiar el comportamiento. La deriva se suprime estructuralmente.

3. Separar decisiones de implementacion

Tres cosas mezcladas en el codigo — decisiones del usuario, logica de negocio, detalles de implementacion — se separan. Las decisiones viven en especificaciones declarativas (OpenAPI, DDL, diagramas de estado). La implementacion es generada libremente por IA. La IA no puede confundir decisiones con detalles y sobrescribirlas. La supervivencia de las decisiones se independiza del tamano del modelo.


Evolucion

Prompt Engineering      → Say it well and it works
Context Engineering     → Give good context and it works
Harness Engineering     → Contain it with structure
Reins Engineering       → Steer it with direction

Cada etapa nacio de las limitaciones de la anterior. Los prompts solos carecian de consistencia. El contexto no impedia que el agente se descontrolara. Las vallas no podian prevenir la deriva dentro del perimetro.

Reins Engineering no es una valla — son riendas. No restringe la libertad del agente; asegura que el agente llegue al destino.


80 : 20

Reins Engineering no cubre todo. Sabe exactamente lo que cubre.

Deque Systems analizo aproximadamente 300,000 problemas de calidad de accesibilidad en mas de 13,000 paginas (2021). El 57% era completamente automatizable, el 23% requeria asistencia de IA y el 20% solo podia ser juzgado por humanos. Accesibilidad y codigo son dominios diferentes, pero comparten la misma estructura: “que proporcion pueden juzgar las maquinas?”

A traves de esta lente, la calidad del codigo se descompone asi:

  • 57% — Territorio del ratchet. Declarar comportamiento, y las maquinas juzgan violaciones sin preguntar. go test, Hurl, yongol check, filefunc validate.
  • 23% — Territorio del harness. Linters, formateadores, CI. El mecanismo es determinista, pero la profundidad de verificacion se queda en la superficie. No capturan la correccion de comportamiento, pero imponen estructura y estilo, elevando la calidad de generacion de la IA.
  • 20% — Territorio humano. Adecuacion al negocio, UX, direccion arquitectonica.

Reins Engineering no reemplaza al harness. Se monta encima.

Harness (determinismo superficial)   23%
+ Ratchet (determinismo de comportamiento)   57%
────────────────────────────────────
                                     80%

Los humanos se concentran en el 20% restante.


Por que modelos mas grandes no son la respuesta

“GPT-6 lo arreglara.”

No lo hara. El problema no es la inteligencia del modelo — es el medio. El codigo como medio no distingue decisiones de implementacion. Cualquier modelo que lea codigo ve decisiones y detalles mezclados en el mismo texto.

Un modelo local de 4.5B (Gemma4) con retroalimentacion determinista + contexto de ejemplo edita SSOTs hasta cero errores. Un modelo de frontera editando codigo crudo produce deriva. La diferencia es estructura, no inteligencia.

No cambies el modelo. Agrega un contrato.


Evidencia

yongol es la implementacion de Reins Engineering. Valida cruzadamente la consistencia de 10 especificaciones declarativas (SSOTs) con 287 reglas y genera codigo.

Benchmark ZenFlow — un SaaS de automatizacion de flujos de trabajo multi-tenant. 32 endpoints, 14 tablas, 47 solicitudes Hurl. 11/11 etapas superadas. Agregar funciones no ralentizo nada. Las pruebas existentes nunca fallaron.

Se genero exitosamente un backend funcional con un modelo local de 4.5B. Costo $0. Sin conexion. Las riendas cierran la brecha que el tamano del modelo deja.


No es automatizacion de revision por IA — es automatizacion de revision por codigo

El enfoque predominante de la industria es la automatizacion de revision por IA. Un LLM genera codigo y otro LLM lo revisa. Un borracho preguntandole a un amigo borracho “¿estoy borracho?”. La tasa de capitulacion por adulacion de los modelos de frontera es del 58%. La tasa de falsos aprobados de LLM-as-Judge es del 36%. Multiplicar generacion probabilistica por verificacion probabilistica degrada la precision.

Reins Engineering es automatizacion de revision por codigo. El LLM genera, el codigo deterministico verifica. validate no adula. go test no alucina. La medicion de cobertura no miente. Aprobado es aprobado y fallo es fallo.

Revision por IA:     LLM → verificacion LLM → adulacion → falso aprobado → deriva
Revision por codigo: LLM → verificacion de codigo → hechos → aprobado/fallo → convergencia

En una era donde los agentes de IA generan decenas de lineas por segundo, los humanos no pueden leer todo el codigo. Pero delegar la revision a la IA significa que la adulacion reemplaza la verificacion. Cuando el codigo se encarga de las partes mecanicamente verificables, los humanos pueden concentrarse unicamente en las decisiones que las maquinas no pueden juzgar — adecuacion al negocio, UX, direccion arquitectonica.

La revision humana no se reduce a cero. Se reduce el dolor de la revision humana. Lo que el codigo puede revisar, lo hace el codigo. Lo que solo los humanos pueden revisar, lo hacen los humanos.


Un arnes sin riendas es solo una valla

La IA ya es suficientemente poderosa. Lo que falta es direccion.

Construye vallas mas altas y el agente deriva mas rapido dentro de ellas. Sosten las riendas y el agente corre hacia el destino.

Reins Engineering — validacion determinista estructurada para agentes de IA.


Convergencia independiente

Reins Engineering no es una conclusion alcanzada en solitario. Personas que no se conocen entre si chocaron con el mismo muro y llegaron al mismo principio.

episteme — Un plano de control cognitivo para agentes de IA, construido por un investigador de UIUC. Obliga a crear un Reasoning Surface a nivel del sistema de archivos antes de acciones irreversibles. Mismo principio que el ratchet, diferente implementacion.

MagLab — Un pipeline de investigacion en fisica construido por un investigador de spintronica de KAIST. Declaracion: “LLMs only reason and plan. They do not compute numbers, fabricate citations, or generate figure data.” Las herramientas deterministas producen todas las salidas numericas.

Manifesto — MEL (Manifesto Expression Language) para definir declarativamente las transiciones de estado del frontend. Principio central: “Agent proposes, World verifies.” El agente solo propone intenciones; las transiciones de estado se verifican deterministicamente.

NEKOWORK — Una puerta de seguridad que escanea diffs de codigo generado por IA con reglas deterministas antes del merge. Funciona independientemente de si el codigo fue generado por Claude Code, Cursor o Codex. El LLM no juzga.

oh-my-kamisama — Un conductor multi-CLI que orquesta Claude, Codex y Gemini. Lee el git diff real en vez de las afirmaciones de los workers («diffs beat claims»), y solo declara la tarea terminada cuando pasan los tests del proyecto. Cada ejecucion queda en disco como un artefacto auditable, no como un chat que desaparece.

Los cinco proyectos se resumen con la misma frase: La generacion puede ser probabilistica. La verificacion debe ser determinista.


Articulos relacionados


References

  • Cursino, D. et al. (2026). “Speed at the Cost of Quality? The Impact of AI Coding on Software.” MSR 2026. arxiv.org/abs/2511.04427
  • Google Cloud (2025). DORA Report 2025. cloud.google.com
  • Wang, Z. et al. (2026). “TDAD: Test-Driven Agentic Development.” ACM AIWare 2026. arxiv.org/abs/2603.17973
  • Karpathy, A. (2026). “From Vibe Coding to Agentic Engineering.” thenewstack.io
  • Deque Systems (2021). “Automated Testing Study Identifies 57 Percent of Digital Accessibility Issues.” deque.com
  • Anthropic (2026). “Demystifying Evals for AI Agents.” anthropic.com

Historial de cambios

  • 2026-05-23: Publicacion inicial
  • 2026-05-27: Agregada seccion “Convergencia independiente” (episteme, MagLab, Manifesto, NEKOWORK)
  • 2026-05-28: Seccion “80:20” — Harness (23%) + Ratchet (57%) = 80%, datos empiricos de Deque
  • 2026-05-31: oh-my-kamisama añadido a Convergencia Independiente

Registro de cambios

  • 2026-05-23: Versión inicial