图片:AI 生成
McDonald’s 的员工不是米其林大厨。但在首尔吃到的巨无霸和在纽约吃到的巨无霸味道一样。系统创造了一致性。
到这里,大多数人会得出结论:“不需要天赋,系统就够了。“我曾经也这样想。错了。
McDonald’s 的系统并没有取代大厨,而是解放了大厨。正因为门店员工不再需要记住烤架温度,总部的大厨才能专注于新品研发。系统承担了重复劳动,人类的创造力才得以集中到只有创造力才能解决的地方。系统不是取代天才,而是创造了让天才成为天才的条件。
同样的原理也适用于 AI 智能体。没有结构的天才会迷失方向。只有结构则趋于平庸。将两者结合时,真正有趣的事情才会发生。
结构创造解放的历史
1935 年,Boeing B-17 在试飞中坠毁。不是因为飞行员无能,而是因为飞机变得太复杂,一个人的记忆力已经无法消化所有程序。解决方案不是找更优秀的飞行员,而是制作检查清单。此后,B-17 累计飞行了 180 万英里零事故。
通常的解读是"检查清单取代了飞行员的技能”。但实际发生的事情不同。正因为检查清单承担了程序记忆这一认知负荷,飞行员才能全身心投入到情境判断:湍流中的决断,紧急情况下的优先级重新排列。当检查清单接管了机械性重复,飞行员的判断力才真正开始闪耀。
Toyota 生产方式(TPS)也是同样的结构。拉下 andon 绳,生产线停下来,问题解决之前一辆车也不会出厂。标准作业书(SOP)创造了可重复的品质。但 TPS 真正的威力不在于 SOP 本身。正因为 SOP 消除了日常运营中的波动,工程师们才有时间去做 kaizen,根本性的改进。结构承担了重复,人才专注于改善。
阿图尔·葛文德的研究把这个原理带进了手术室。引入 WHO 手术安全清单的医院,手术并发症减少了 36%,死亡率降低了 47%。清单不过是一张 19 个条目的纸。它并没有提高外科医生的技术,而是把"别忘了纱布"之类的认知负荷交给了系统,让外科医生能够专注于真正困难的判断:对意外出血的即时应对,手术方案的实时重新设计。
模式是一致的。当结构承担了重复,人类的能力就会集中到判断与创造上。 系统的价值不在于取代天赋,而在于减少天赋被浪费的地方,提高天赋所需之处的密度。
同样的原理也适用于 AI
当下 AI 行业的主流叙事是"更大的模型、更多的参数、更高的基准分数”。这种信念认为,模型变聪明了,问题就解决了。部分是对的,但只对了一半。
给最强大的模型一个没有结构的指令"做个应用出来",会发生什么?前 100 行代码很整洁。超过 500 行就开始忘记自己创建的接口。到 1000 行,前面定下的规则在后面被违反。端点超过 30 个时,数据库 Schema 和 API 规范开始悄悄错位。
这不是因为模型蠢。在上下文窗口内保持所有决策的一致性,在结构上几乎不可能。人类也做不到。和 B-17 飞行员做不到的原因一样。当复杂度超过一个主体的认知容量时,无论这个主体多么优秀,都会遗漏。
我把这称为漂移(drift)。智能体在反复循环中逐渐偏离初始规范的现象。没有结构,漂移就是必然。升级模型只会推迟漂移发生的时间点,不会让它消失。
关键在于:没有结构,即使是 Opus 也会把推理力浪费在记忆字段名上。有了结构,Opus 就能把推理力集中在"如何分解这个领域"上。聪明的模型只有在结构处理了平凡工作之后,才能做出聪明的工作。
43 分钟,32 个端点,零缺陷
有证据。ZenFlow 基准测试。
Claude Sonnet 4.6,不是最顶级的模型(Opus),而是中档模型,在 yongol 的 SSOT 结构中,从头到尾构建了一个完整的应用。
结果:
- 32 个端点、9 张数据库表、9 个查询文件、37 个 Hurl 测试,全部通过
- 耗时约 43 分钟
- 代码生成缺陷 0 个
模型并非没有犯错。有 4 个错误(BUG-077~080)。重要的是,这 4 个全部被归类为"SSOT 编写错误"。不是代码生成器的缺陷:智能体写错了规范。而系统捕获了这些错误。validate 报告了失败,智能体修正了规范,重新运行,通过了。
43 分钟中大约 16 分钟花在了这个 validate 反复上。这是系统教导智能体的时间。
Sonnet 比 Opus"不那么聪明",基准分数全面更低。但在结构内部,它产出了生产级质量的代码。这不是因为不需要天才,而是因为结构承担了执行,天才就不必再为此操心。
正因为结构让 Sonnet 也能以足够的质量胜任执行,天才模型才能只被投入到设计和判断这些真正高难度的领域。就像 McDonald’s 员工能做出一致的汉堡,总部的大厨才能构思新品,这是同样的机制。
三个齿轮
将这个结构分解,会得到三个组成要素。我称之为 Ratchet Pattern。三个齿轮各自承担"天才不需要操心的事情"。
1. SSOT:要做什么
Single Source of Truth。在 yongol 中,9 个声明式规范文件承担这个角色。OpenAPI 定义端点,DDL 定义表,Rego 定义权限。关键是这 9 个通过 operationId 这一单一标识符串联在一起。一个端点的 API 规范、数据库查询、测试、权限规则全部用同一个键绑定。
SSOT 承担的是:记忆。字段名、关系、约束条件。天才不需要记忆它们,规范来记忆。
2. Codegen:怎么做
从 SSOT 生成代码。智能体不是自由编写代码,而是编写从规范派生的代码。漂移在结构上被抑制。规范中没有的不能创建,规范中有的不能遗漏。
Codegen 承担的是:重复。为 32 个端点逐一编写样板代码不是天才该做的事。结构来做。
3. Gate:做对了吗
确定性验证。validate 检查 9 个规范之间的一致性。operationId 在 OpenAPI 中存在但在 Hurl 测试中缺失就会失败。DDL 中有列但 sqlc 查询中未引用就会警告。不通过就不能进入下一步。
Gate 承担的是:检验。用人眼确认 32 个端点之间的一致性,和 B-17 飞行员靠脑子记忆程序是一样的。测量值决定合格。
这三个齿轮啮合在一起就形成了棘轮。一旦通过就不会倒退。智能体犯错,Gate 捕获,智能体修正,再次验证。这个循环的唯一出口是"通过"。而在整个循环运转期间,天才可以在构思下一个问题的设计。
天才闪耀的时刻
那么天才用在哪里?结构之外的所有地方。那里才是真正创造价值的地方。
写 McDonald’s 手册的人不是兼职店员。设计配方、分解工序、决定在哪个环节加入检查的是专家。Toyota 的 andon 绳也一样。定义停线条件的是大野耐一的洞察。系统承担执行,不承担设计。设计是天才的领域。正因为结构卸下了执行的重担,天才才能全身心投入设计。
在 AI 中也一样。编写 yongol 的 SSOT(判断需要哪些端点、设计表关系、决定权限模型)是需要深度推理的工作。结构形成之前的探索、前所未有的架构判断、“如何分解这个问题"这个提问,这些无法放入结构之中。强大模型的推理力在这里闪耀。
所以我在实际工作中分模型使用。设计和判断交给 Opus,结构内的执行交给 Sonnet。这种双模型模式正是"系统让天才闪耀"的最直接实现。Opus 不会把推理力浪费在字段名或样板代码上,因为结构承担了那些。Opus 只专注于架构决策、领域分解、边界情况判断,只有 Opus 才能做的事。
建筑师不搬砖,不是不尊重砖的重要性。团队处理搬砖,建筑师才能专注于图纸。把最优秀的人才投入到每一项工序不是面面俱到,而是浪费。
不是节省昂贵的模型,而是正确地使用
来看价格。
Claude Sonnet 的输出 token 价格是 $15/M-token。Opus 是 $75/M-token。5 倍差距。没有结构把全流程交给 Opus,Opus 的大部分推理力会消耗在样板代码生成和字段名一致性维护上。就像让时薪 $75 的建筑师去搬砖。
有了结构就不同了。执行(代码生成、一致性维护、测试通过)由 Sonnet 在结构内处理。正如 ZenFlow 所证明的,以 100% 通过 Gate 的品质。Opus 只投入到设计和判断。同样的预算,Opus 的推理力以 5 倍密度集中。
这不是降低成本,而是预算分配。天才需要的地方用天才,结构够用的地方用结构。总成本下降只是附带效果,真正的效果是产出质量的提升。天才做天才的工作时产出的成果,与天才淹没在杂务中时,完全不是一个维度。
尚未回答的问题
公平地说,还有些东西尚未得到证明。
ZenFlow 是一个基准测试。32 个端点在实际工作中算中等规模。200 个端点下同样的模式是否依然成立,还在验证中。yongol 的上下文压缩约 10 倍这一测量结果已有,但在数百个端点下是否线性扩展,还需要更多数据。
还有一点。编写 SSOT 本身需要专业能力。回到 McDonald’s 的比喻:首先得有能写手册的人。结构要让天才闪耀,首先需要能设计结构的天才。这不是循环,而是顺序。一次设计支撑无限次执行。
但核心主张不会动摇。
乘法
“AI 有多聪明?“只是半个问题。
另一半是:“你的结构把那份智能集中到了哪里?”
B-17 没有检查清单时,最优秀的飞行员也会坠毁。有了检查清单之后,普通飞行员也能安全飞行 180 万英里,而优秀的飞行员获得了应对前所未有挑战的余裕。如果 Toyota 不用 andon 绳而是说"多招些优秀技术员”,精益生产就不会存在。正因为有了 andon,技术员们才能专注于 kaizen。
AI 也一样。模型每年都会出新的。去年的最强模型是今年的中档。但对结构的投资,即使模型更换也会留存。SSOT 规范在 Sonnet 上能运行,在 Opus 上能运行,在明年出的模型上也能运行。而且模型越强,结构所解放的推理力总量就越大。结构的价值随模型一同增长。
天才独行会迷失方向。结构独行会趋于平庸。当天才与结构相乘,那时才能到达任何一方单独都无法企及的地方。
系统并非战胜天才,而是让天才更加闪耀。这不是什么新发现,这是从 1935 年起就已被证明的事实。只是我们还没有把它应用到 AI 上而已。
相关文章
- Reins Engineering — 给AI装上缰绳
- Ratchet Pattern:让 Agent 做到底的方法
- 漂移为何永不消亡
- 比起模型IQ,更重要的是反馈拓扑
- 编程Agent为何能工作,又为何会崩溃
延伸阅读(外部)
- Atul Gawande, The Checklist Manifesto — B-17与WHO检查清单案例的原始出处。复杂性超出个人能力时,系统如何辅助专家。
- Haynes et al., “A Surgical Safety Checklist to Reduce Morbidity and Mortality in a Global Population” (NEJM, 2009) — WHO手术安全检查清单原始论文。8个国家的医院并发症减少36%,死亡率降低47%。
- Mike Mason, “AI Coding Agents in 2026: Coherence Through Orchestration, Not Autonomy” — 编排而非自主性维持Agent一致性的分析。
- “Spec-Driven Development with AI Coding Agents” (ZeroShot, 2026) — 版本化明细(SSOT)如何防止AI编程Agent漂移的实务指南。
- “Guardrails for AI Coding Agents” (Earthly) — 将策略嵌入工作流,在PR前捕获漂移。
参考文献
- Ohno, T. (1988). Toyota Production System: Beyond Large-Scale Production. Productivity Press.
- Gawande, A. (2009). The Checklist Manifesto: How to Get Things Right. Metropolitan Books.
- Haynes, A. B., et al. (2009). “A Surgical Safety Checklist to Reduce Morbidity and Mortality in a Global Population.” New England Journal of Medicine, 360(5), 491-499.
- World Health Organization. (2009). WHO Surgical Safety Checklist. WHO Patient Safety.
- B-17 checklist case: Schamel, J. (2012). “How the Pilot’s Checklist Came About.” Flight Safety Australia Magazine.
变更历史
- 2026-06-25: 首次发布