Reins Engineering — 给AI装上缰绳 Image: AI generated

没有缰绳的马


AI编程工具变得很快。30秒完成登录,2分钟搞定支付,三周内交付一个MVP。

三个月后,一切崩塌。

AI"整理"支付逻辑时改变了折扣计算。重构请求修改了公开API的字段名。添加新功能破坏了认证。根据卡内基梅隆大学的研究(MSR 2026),采用AI编程工具后,代码复杂度永久增加41%。Google DORA Report(2025)显示,AI采用率每增加25%,交付稳定性下降7.2%。

问题不在于AI愚蠢。而在于没有缰绳。


围栏只是围栏

业界的回答是"harness engineering"。Linter、格式化工具、CI/CD、项目结构、编码规范。防止代理越界的围栏。

围栏不指明方向。代理在围栏内做什么——覆盖现有逻辑、更改类型、跳过状态转换——linter通过,格式化通过,CI通过。代码到达生产环境时"干净但错误"。

鞍装好了,骑手上马了。但没有缰绳,只能用大腿夹紧,三个月后摔下来。


Reins Engineering

Reins Engineering是一种工程方法,给AI代理提供确定性契约,当契约被违反时阻止推进。

它由三个要素构成:

1. 确定性反馈

给代理事实,而非意见。不是"这看起来有问题",而是"第41行:字段名不匹配,期望’user_id’,实际为’userId’"。不给阿谀奉承留任何空间的反馈。根据TDAD研究(arxiv 2026),程序性的"做TDD"指令反而加剧回归(6.08% → 9.94%),而在上下文中提供具体测试文件可将回归减少70%(6.08% → 1.82%)。

2. 契约锁定(Ratchet Pattern)

验证通过后,锁定它。以这种方式编写的验证代码称为 ratchet code。Hurl测试以纯文本声明API行为,每次提交时在CI中运行。通过的 ratchet code 不可删除。代理可以自由修改代码,但不能改变行为。漂移在结构上被抑制。

3. 决策与实现分离

代码中混合的三样东西——用户决策、业务逻辑、实现细节——被分离。决策存在于声明式规范中(OpenAPI、DDL、状态图)。实现由AI自由生成。AI无法将决策误认为细节而覆盖。决策的存续不再依赖模型大小。


演进

Prompt Engineering      → Say it well and it works
Context Engineering     → Give good context and it works
Harness Engineering     → Contain it with structure
Reins Engineering       → Steer it with direction

每个阶段都诞生于前一阶段的局限。仅靠提示词缺乏一致性。上下文无法阻止代理失控。围栏无法防止边界内的漂移。

Reins Engineering不是围栏——是缰绳。它不限制代理的自由,而是确保代理到达目的地。


80 : 20

Reins Engineering并不覆盖一切。它精确地知道自己覆盖的范围。

Deque Systems分析了超过13,000个页面中约300,000个无障碍质量问题(2021)。57%可完全自动化判定,23%需要AI辅助,20%只能由人类判定。无障碍与代码是不同的领域,但它们共享同一结构:“机器能判定的比例是多少?”

透过这个视角审视代码质量:

  • 57% — 棘轮的领域。声明行为,机器无需询问即判定违规。go test、Hurl、yongol checkfilefunc validate
  • 23% — 护具的领域。Linter、格式化工具、CI。机制是确定性的,但验证深度停留在表层。无法捕获行为正确性,但能规范结构与风格,提升AI生成质量。
  • 20% — 人类的领域。业务适配性、用户体验、架构方向。

Reins Engineering不替代护具,而是骑在护具之上。

护具(表层确定性)     23%
+ 棘轮(行为确定性)   57%
──────────────────
                     80%

人类专注于剩余的20%。


为什么更大的模型不是答案

“GPT-6会解决一切。”

不会。问题不在于模型智能——而在于介质。代码作为介质无法区分决策与实现。任何模型读代码时都看到决策和细节混在同一段文本中。

一个4.5B的本地模型(Gemma4),配合确定性反馈+示例上下文,可以将SSOT编辑到零错误。前沿模型编辑原始代码则产生漂移。差异在于结构,而非智能。

不要换模型。加上契约。


证据

yongol是Reins Engineering的实现。它用287条规则交叉验证10个声明式规范(SSOT)的一致性并生成代码。

ZenFlow基准测试——一个多租户工作流自动化SaaS。32个端点,14张表,47个Hurl请求。11/11阶段通过。添加功能没有减速。现有测试从未失败。

使用本地4.5B模型成功生成了可工作的后端。成本$0。离线运行。缰绳弥补了模型规模留下的差距。


不是AI审查自动化——是代码审查自动化

业界的主流方法是AI审查自动化。一个LLM生成代码,另一个LLM审查它。一个醉汉问醉酒的朋友"我醉了吗?“的结构。前沿模型的阿谀屈服率为58%。LLM-as-Judge的虚假通过率为36%。概率性生成乘以概率性验证,精确度退化。

Reins Engineering是代码审查自动化。LLM生成,确定性代码验证。validate不会阿谀奉承。go test不会产生幻觉。覆盖率测量不会撒谎。通过就是通过,失败就是失败。

AI审查自动化:    LLM → LLM验证 → 阿谀 → 虚假通过 → 漂移
代码审查自动化:  LLM → 代码验证 → 事实 → 通过/失败 → 收敛

在AI代理每秒生成数十行代码的时代,人类无法阅读所有代码。但将审查交给AI意味着阿谀替代了验证。当代码代行机器可验证的部分时,人类可以专注于机器无法判定的决策——业务适配性、用户体验、架构方向。

人工审查不会归零。**人工审查的痛苦减少了。**代码能审查的交给代码,只有人类才能审查的留给人类。


没有缰绳的围栏只是围栏

AI已经足够强大。缺少的是方向。

围栏建得越高,代理在里面漂移得越快。握住缰绳,代理就会跑向目的地。

Reins Engineering——面向AI代理的结构化确定性验证。


独立收敛

Reins Engineering不是一个人得出的结论。互不相识的人撞上了同一堵墙,抵达了同一个原则。

episteme — 由UIUC研究人员构建的AI代理认知控制平面。在不可逆操作之前,强制在文件系统层面创建Reasoning Surface。与ratchet相同的原则,不同的实现。

MagLab — 由KAIST自旋电子学研究人员构建的物理研究流水线。声明:“LLMs only reason and plan. They do not compute numbers, fabricate citations, or generate figure data.” 所有数值输出由确定性工具产生。

Manifesto — MEL (Manifesto Expression Language),用于声明式定义前端状态转换。核心原则:“Agent proposes, World verifies.” 代理只提出意图;状态转换由确定性验证。

NEKOWORK — 一个安全门,在合并之前用确定性规则扫描AI生成的代码差异。无论代码由Claude Code、Cursor还是Codex生成都有效。LLM不做判断。

oh-my-kamisama — 指挥 Claude、Codex、Gemini 的多 CLI 指挥官(conductor)。它读取真实的 git diff 而非 worker 的说辞(“diffs beat claims”),只有项目测试通过后才宣布完成。每次运行都以可审计的产物留在磁盘上——而非转瞬即逝的聊天记录。

五个项目可以用同一句话总结:生成可以是概率性的。验证必须是确定性的。


相关文章


References

  • Cursino, D. et al. (2026). “Speed at the Cost of Quality? The Impact of AI Coding on Software.” MSR 2026. arxiv.org/abs/2511.04427
  • Google Cloud (2025). DORA Report 2025. cloud.google.com
  • Wang, Z. et al. (2026). “TDAD: Test-Driven Agentic Development.” ACM AIWare 2026. arxiv.org/abs/2603.17973
  • Karpathy, A. (2026). “From Vibe Coding to Agentic Engineering.” thenewstack.io
  • Deque Systems (2021). “Automated Testing Study Identifies 57 Percent of Digital Accessibility Issues.” deque.com
  • Anthropic (2026). “Demystifying Evals for AI Agents.” anthropic.com

变更记录

  • 2026-05-23: 首次发布
  • 2026-05-27: 新增"独立收敛"章节(episteme、MagLab、Manifesto、NEKOWORK)
  • 2026-05-28: “80:20"章节——护具(23%) + 棘轮(57%) = 80%,以Deque实证数据量化
  • 2026-05-31: 独立收敛新增 oh-my-kamisama