Image: AI generated
没有缰绳的马
AI编程工具变得很快。30秒完成登录,2分钟搞定支付,三周内交付一个MVP。
三个月后,一切崩塌。
AI"整理"支付逻辑时改变了折扣计算。重构请求修改了公开API的字段名。添加新功能破坏了认证。根据卡内基梅隆大学的研究(MSR 2026),采用AI编程工具后,代码复杂度永久增加41%。Google DORA Report(2025)显示,AI采用率每增加25%,交付稳定性下降7.2%。
问题不在于AI愚蠢。而在于没有缰绳。
围栏只是围栏
业界的回答是"harness engineering"。Linter、格式化工具、CI/CD、项目结构、编码规范。防止代理越界的围栏。
围栏不指明方向。代理在围栏内做什么——覆盖现有逻辑、更改类型、跳过状态转换——linter通过,格式化通过,CI通过。代码到达生产环境时"干净但错误"。
鞍装好了,骑手上马了。但没有缰绳,只能用大腿夹紧,三个月后摔下来。
Reins Engineering
Reins Engineering是一种工程方法,给AI代理提供确定性契约,当契约被违反时阻止推进。
它由三个要素构成:
1. 确定性反馈
给代理事实,而非意见。不是"这看起来有问题",而是"第41行:字段名不匹配,期望’user_id’,实际为’userId’"。不给阿谀奉承留任何空间的反馈。根据TDAD研究(arxiv 2026),程序性的"做TDD"指令反而加剧回归(6.08% → 9.94%),而在上下文中提供具体测试文件可将回归减少70%(6.08% → 1.82%)。
2. 契约锁定(Ratchet Pattern)
验证通过后,锁定它。以这种方式编写的验证代码称为 ratchet code。Hurl测试以纯文本声明API行为,每次提交时在CI中运行。通过的 ratchet code 不可删除。代理可以自由修改代码,但不能改变行为。漂移在结构上被抑制。
3. 决策与实现分离
代码中混合的三样东西——用户决策、业务逻辑、实现细节——被分离。决策存在于声明式规范中(OpenAPI、DDL、状态图)。实现由AI自由生成。AI无法将决策误认为细节而覆盖。决策的存续不再依赖模型大小。
演进
Prompt Engineering → Say it well and it works
Context Engineering → Give good context and it works
Harness Engineering → Contain it with structure
Reins Engineering → Steer it with direction
每个阶段都诞生于前一阶段的局限。仅靠提示词缺乏一致性。上下文无法阻止代理失控。围栏无法防止边界内的漂移。
Reins Engineering不是围栏——是缰绳。它不限制代理的自由,而是确保代理到达目的地。
80 : 20
Reins Engineering并不覆盖一切。它精确地知道自己覆盖的范围。
Deque Systems分析了超过13,000个页面中约300,000个无障碍质量问题(2021)。57%可完全自动化判定,23%需要AI辅助,20%只能由人类判定。无障碍与代码是不同的领域,但它们共享同一结构:“机器能判定的比例是多少?”
透过这个视角审视代码质量:
- 57% — 棘轮的领域。声明行为,机器无需询问即判定违规。
go test、Hurl、yongol check、filefunc validate。 - 23% — 护具的领域。Linter、格式化工具、CI。机制是确定性的,但验证深度停留在表层。无法捕获行为正确性,但能规范结构与风格,提升AI生成质量。
- 20% — 人类的领域。业务适配性、用户体验、架构方向。
Reins Engineering不替代护具,而是骑在护具之上。
护具(表层确定性) 23%
+ 棘轮(行为确定性) 57%
──────────────────
80%
人类专注于剩余的20%。
为什么更大的模型不是答案
“GPT-6会解决一切。”
不会。问题不在于模型智能——而在于介质。代码作为介质无法区分决策与实现。任何模型读代码时都看到决策和细节混在同一段文本中。
一个4.5B的本地模型(Gemma4),配合确定性反馈+示例上下文,可以将SSOT编辑到零错误。前沿模型编辑原始代码则产生漂移。差异在于结构,而非智能。
不要换模型。加上契约。
证据
yongol是Reins Engineering的实现。它用287条规则交叉验证10个声明式规范(SSOT)的一致性并生成代码。
ZenFlow基准测试——一个多租户工作流自动化SaaS。32个端点,14张表,47个Hurl请求。11/11阶段通过。添加功能没有减速。现有测试从未失败。
使用本地4.5B模型成功生成了可工作的后端。成本$0。离线运行。缰绳弥补了模型规模留下的差距。
不是AI审查自动化——是代码审查自动化
业界的主流方法是AI审查自动化。一个LLM生成代码,另一个LLM审查它。一个醉汉问醉酒的朋友"我醉了吗?“的结构。前沿模型的阿谀屈服率为58%。LLM-as-Judge的虚假通过率为36%。概率性生成乘以概率性验证,精确度退化。
Reins Engineering是代码审查自动化。LLM生成,确定性代码验证。validate不会阿谀奉承。go test不会产生幻觉。覆盖率测量不会撒谎。通过就是通过,失败就是失败。
AI审查自动化: LLM → LLM验证 → 阿谀 → 虚假通过 → 漂移
代码审查自动化: LLM → 代码验证 → 事实 → 通过/失败 → 收敛
在AI代理每秒生成数十行代码的时代,人类无法阅读所有代码。但将审查交给AI意味着阿谀替代了验证。当代码代行机器可验证的部分时,人类可以专注于机器无法判定的决策——业务适配性、用户体验、架构方向。
人工审查不会归零。**人工审查的痛苦减少了。**代码能审查的交给代码,只有人类才能审查的留给人类。
没有缰绳的围栏只是围栏
AI已经足够强大。缺少的是方向。
围栏建得越高,代理在里面漂移得越快。握住缰绳,代理就会跑向目的地。
Reins Engineering——面向AI代理的结构化确定性验证。
独立收敛
Reins Engineering不是一个人得出的结论。互不相识的人撞上了同一堵墙,抵达了同一个原则。
episteme — 由UIUC研究人员构建的AI代理认知控制平面。在不可逆操作之前,强制在文件系统层面创建Reasoning Surface。与ratchet相同的原则,不同的实现。
MagLab — 由KAIST自旋电子学研究人员构建的物理研究流水线。声明:“LLMs only reason and plan. They do not compute numbers, fabricate citations, or generate figure data.” 所有数值输出由确定性工具产生。
Manifesto — MEL (Manifesto Expression Language),用于声明式定义前端状态转换。核心原则:“Agent proposes, World verifies.” 代理只提出意图;状态转换由确定性验证。
NEKOWORK — 一个安全门,在合并之前用确定性规则扫描AI生成的代码差异。无论代码由Claude Code、Cursor还是Codex生成都有效。LLM不做判断。
oh-my-kamisama — 指挥 Claude、Codex、Gemini 的多 CLI 指挥官(conductor)。它读取真实的 git diff 而非 worker 的说辞(“diffs beat claims”),只有项目测试通过后才宣布完成。每次运行都以可审计的产物留在磁盘上——而非转瞬即逝的聊天记录。
五个项目可以用同一句话总结:生成可以是概率性的。验证必须是确定性的。
相关文章
- yongol — AI编程SaaS的龙骨 — Reins Engineering的实现。
- Hurl阻止Vibe Coding漂移 — Hurl + ratchet锁定API行为。
- Ratchet Pattern — 确定性验证与棘轮锁定的理论。
- IFEval-Exploiting Ratchet Code — 利用阿谀偏差的反馈循环。
- dry4go — Robert C. Martin(Uncle Bob)的Go结构性重复检测器。通过AST归一化 + Jaccard相似度确定性地检测DRY违规。
References
- Cursino, D. et al. (2026). “Speed at the Cost of Quality? The Impact of AI Coding on Software.” MSR 2026. arxiv.org/abs/2511.04427
- Google Cloud (2025). DORA Report 2025. cloud.google.com
- Wang, Z. et al. (2026). “TDAD: Test-Driven Agentic Development.” ACM AIWare 2026. arxiv.org/abs/2603.17973
- Karpathy, A. (2026). “From Vibe Coding to Agentic Engineering.” thenewstack.io
- Deque Systems (2021). “Automated Testing Study Identifies 57 Percent of Digital Accessibility Issues.” deque.com
- Anthropic (2026). “Demystifying Evals for AI Agents.” anthropic.com
变更记录
- 2026-05-23: 首次发布
- 2026-05-27: 新增"独立收敛"章节(episteme、MagLab、Manifesto、NEKOWORK)
- 2026-05-28: “80:20"章节——护具(23%) + 棘轮(57%) = 80%,以Deque实证数据量化
- 2026-05-31: 独立收敛新增 oh-my-kamisama