Reins Engineering — IA com redeas Image: AI generated

Um cavalo sem redeas


As ferramentas de codificacao com IA ficaram rapidas. Login em 30 segundos. Pagamentos em 2 minutos. Um MVP e entregue em tres semanas.

Tres meses depois, desmorona.

A IA “limpa” a logica de pagamento e altera os calculos de desconto. Um pedido de refatoracao muda os nomes dos campos da API publica. Adicionar uma nova funcionalidade quebra a autenticacao. Segundo pesquisa da Carnegie Mellon (MSR 2026), a complexidade do codigo aumenta permanentemente 41% apos a adocao de ferramentas de codificacao com IA. O Google DORA Report (2025) mostra uma queda de 7,2% na estabilidade de entrega para cada 25% de aumento na adocao de IA.

O problema nao e que a IA seja burra. E que nao ha redeas.


Arreios sao cercas

A industria respondeu com “harness engineering”. Linters, formatadores, CI/CD, estrutura de projeto, diretrizes de codificacao. Cercas que impedem o agente de sair.

Cercas nao definem direcao. O que quer que o agente faca dentro da cerca — sobrescrever logica existente, mudar tipos, pular transicoes de estado — o linter passa. O formatador passa. O CI passa. O codigo chega a producao “limpo, mas errado”.

A sela esta colocada. O cavaleiro esta montado. Mas sem redeas, segura-se com as coxas e cai depois de tres meses.


Reins Engineering

Reins Engineering e uma abordagem de engenharia que fornece aos agentes de IA contratos deterministicos e bloqueia o progresso quando os contratos sao violados.

Consiste em tres elementos:

1. Feedback deterministico

De ao agente fatos, nao opinioes. Nao “isso parece estranho”, mas “linha 41: nome do campo nao corresponde, esperado ‘user_id’, obtido ‘userId’.” Feedback sem espaco para bajulacao. Segundo o estudo TDAD (arxiv 2026), instrucoes procedimentais de “faca TDD” pioram as regressoes (6,08% → 9,94%), enquanto fornecer arquivos de teste especificos no contexto reduz as regressoes em 70% (6,08% → 1,82%).

2. Travamento de contratos (Ratchet Pattern)

Quando a verificacao passa, trave. O codigo de verificacao escrito dessa forma e chamado de ratchet code. Testes Hurl declaram o comportamento da API em texto simples, executando a cada commit no CI. Ratchet code aprovado nao pode ser deletado. O agente pode mudar o codigo livremente, mas nao pode mudar o comportamento. O desvio e suprimido estruturalmente.

3. Separar decisoes de implementacao

Tres coisas misturadas no codigo — decisoes do usuario, logica de negocio, detalhes de implementacao — sao separadas. Decisoes vivem em especificacoes declarativas (OpenAPI, DDL, diagramas de estado). A implementacao e gerada livremente pela IA. A IA nao pode confundir decisoes com detalhes e sobrescreve-las. A sobrevivencia das decisoes se torna independente do tamanho do modelo.


Evolucao

Prompt Engineering      → Say it well and it works
Context Engineering     → Give good context and it works
Harness Engineering     → Contain it with structure
Reins Engineering       → Steer it with direction

Cada estagio nasceu das limitacoes do anterior. Prompts sozinhos careciam de consistencia. Contexto nao impedia o agente de sair do controle. Cercas nao conseguiam prevenir o desvio dentro do perimetro.

Reins Engineering nao e uma cerca — sao redeas. Nao restringe a liberdade do agente; garante que o agente chegue ao destino.


80 : 20

Reins Engineering nao cobre tudo. Sabe exatamente o que cobre.

A Deque Systems analisou ~300.000 problemas de qualidade de acessibilidade em mais de 13.000 paginas (2021). 57% eram totalmente automatizaveis, 23% exigiam assistencia de IA e 20% so podiam ser julgados por humanos. Acessibilidade e codigo sao dominios diferentes, mas compartilham a mesma estrutura: “qual proporcao as maquinas conseguem julgar?”

Por essa lente, a qualidade de codigo se distribui assim:

  • 57% — Territorio do ratchet. Declarar comportamento, maquinas julgam violacoes sem perguntar. go test, Hurl, yongol check, filefunc validate.
  • 23% — Territorio do harness. Linters, formatadores, CI. O mecanismo e deterministico, mas a profundidade de verificacao fica na superficie. Nao capturam correcao comportamental, mas impoem estrutura e estilo, elevando a qualidade da geracao da IA.
  • 20% — Territorio humano. Adequacao ao negocio, UX, arquitetura.

Reins Engineering nao substitui o harness. Monta em cima dele.

Harness (determinismo superficial)   23%
+ Ratchet (determinismo comportamental)   57%
──────────────────────────────────
                                     80%

Humanos focam nos 20% restantes.


Por que modelos maiores nao sao a resposta

“O GPT-6 vai resolver.”

Nao vai. O problema nao e a inteligencia do modelo — e o meio. Codigo como meio nao distingue decisoes de implementacao. Qualquer modelo lendo codigo ve decisoes e detalhes misturados no mesmo texto.

Um modelo local de 4.5B (Gemma4) com feedback deterministico + contexto de exemplo edita SSOTs ate zero erros. Um modelo de fronteira editando codigo bruto produz desvio. A diferenca e estrutura, nao inteligencia.

Nao mude o modelo. Adicione um contrato.


Evidencia

yongol e a implementacao do Reins Engineering. Valida cruzadamente a consistencia de 10 especificacoes declarativas (SSOTs) com 287 regras e gera codigo.

Benchmark ZenFlow — um SaaS de automacao de fluxos de trabalho multi-tenant. 32 endpoints, 14 tabelas, 47 requisicoes Hurl. 11/11 estagios aprovados. Adicionar funcionalidades nao desacelerou. Testes existentes nunca falharam.

Um backend funcional foi gerado com sucesso usando um modelo local de 4.5B. Custo $0. Offline. As redeas preenchem a lacuna que o tamanho do modelo deixa.


Nao e automatizacao de revisao por IA — e automatizacao de revisao por codigo

A abordagem predominante da industria e a automatizacao de revisao por IA. Um LLM gera codigo e outro LLM o revisa. Um bebado perguntando ao amigo bebado “estou bebado?”. A taxa de capitulacao por bajulacao dos modelos de fronteira e de 58%. A taxa de falso positivo do LLM-as-Judge e de 36%. Multiplique geracao probabilistica por verificacao probabilistica e a precisao se degrada.

Reins Engineering e automatizacao de revisao por codigo. O LLM gera, o codigo deterministico verifica. validate nao bajula. go test nao alucina. A medicao de cobertura nao mente. Aprovado e aprovado e falha e falha.

Revisao por IA:     LLM → verificacao LLM → bajulacao → falso positivo → desvio
Revisao por codigo: LLM → verificacao de codigo → fatos → aprovado/falha → convergencia

Em uma era onde agentes de IA geram dezenas de linhas por segundo, humanos nao conseguem ler todo o codigo. Mas delegar a revisao a IA significa que a bajulacao substitui a verificacao. Quando o codigo cuida das partes mecanicamente verificaveis, humanos podem focar exclusivamente nas decisoes que maquinas nao conseguem julgar — adequacao ao negocio, UX, direcao arquitetonica.

A revisao humana nao chega a zero. A dor da revisao humana e reduzida. O que o codigo pode revisar, o codigo faz. O que so humanos podem revisar, humanos fazem.


Um arreio sem redeas e apenas uma cerca

A IA ja e poderosa o suficiente. O que falta e direcao.

Construa cercas mais altas e o agente desvia mais rapido dentro delas. Segure as redeas e o agente corre para o destino.

Reins Engineering — validacao deterministica estruturada para agentes de IA.


Convergencia Independente

5 projetos que convergiram independentemente para o mesmo principio:

  • episteme — Um plano de controle cognitivo para agentes de IA, criado por um pesquisador da UIUC. Forca a criacao de Reasoning Surface no nivel do sistema de arquivos antes de acoes irreversiveis. Mesmo principio do ratchet, implementacao diferente.
  • MagLab — Um pipeline de pesquisa em fisica, criado por um pesquisador de spintronica do KAIST. “LLMs only reason and plan. They do not compute numbers, fabricate citations, or generate figure data.” Ferramentas deterministicas produzem todas as saidas numericas.
  • Manifesto — MEL para definir declarativamente transicoes de estado no frontend. “Agent proposes, World verifies.” O agente apenas propoe intencao; as transicoes de estado sao verificadas deterministicamente.
  • NEKOWORK — Gate de seguranca que escaneia diffs de codigo IA com regras deterministicas antes do merge. Funciona independentemente da origem. O LLM nao julga.
  • oh-my-kamisama — Um conductor multi-CLI que orquestra Claude, Codex e Gemini. Le o git diff real em vez das alegacoes dos workers («diffs beat claims») e so declara concluido apos os testes do projeto passarem. Cada execucao fica em disco como um artefato auditavel — nao um chat que desaparece.

Todos resumidos: A geracao pode ser probabilistica. A verificacao deve ser deterministica.


Artigos relacionados


References

  • Cursino, D. et al. (2026). “Speed at the Cost of Quality? The Impact of AI Coding on Software.” MSR 2026. arxiv.org/abs/2511.04427
  • Google Cloud (2025). DORA Report 2025. cloud.google.com
  • Wang, Z. et al. (2026). “TDAD: Test-Driven Agentic Development.” ACM AIWare 2026. arxiv.org/abs/2603.17973
  • Karpathy, A. (2026). “From Vibe Coding to Agentic Engineering.” thenewstack.io
  • Deque Systems (2021). “Automated Testing Study Identifies 57 Percent of Digital Accessibility Issues.” deque.com
  • Anthropic (2026). “Demystifying Evals for AI Agents.” anthropic.com

Changelog

  • 2026-05-23: Publicacao inicial
  • 2026-05-27: Adicionada secao “Convergencia Independente” (episteme, MagLab, Manifesto, NEKOWORK)
  • 2026-05-28: Secao “80:20” — Harness (23%) + Ratchet (57%) = 80%, dados empiricos Deque
  • 2026-05-31: oh-my-kamisama adicionado a Convergencia Independente