系统让天才更加闪耀 图片:AI 生成

McDonald’s 的员工不是米其林大厨。但在首尔吃到的巨无霸和在纽约吃到的巨无霸味道一样。系统创造了一致性。

到这里,大多数人会得出结论:“不需要天赋,系统就够了。“我曾经也这样想。错了。

McDonald’s 的系统并没有取代大厨,而是解放了大厨。正因为门店员工不再需要记住烤架温度,总部的大厨才能专注于新品研发。系统承担了重复劳动,人类的创造力才得以集中到只有创造力才能解决的地方。系统不是取代天才,而是创造了让天才成为天才的条件。

同样的原理也适用于 AI 智能体。没有结构的天才会迷失方向。只有结构则趋于平庸。将两者结合时,真正有趣的事情才会发生。

结构创造解放的历史

1935 年,Boeing B-17 在试飞中坠毁。不是因为飞行员无能,而是因为飞机变得太复杂,一个人的记忆力已经无法消化所有程序。解决方案不是找更优秀的飞行员,而是制作检查清单。此后,B-17 累计飞行了 180 万英里零事故。

通常的解读是"检查清单取代了飞行员的技能”。但实际发生的事情不同。正因为检查清单承担了程序记忆这一认知负荷,飞行员才能全身心投入到情境判断:湍流中的决断,紧急情况下的优先级重新排列。当检查清单接管了机械性重复,飞行员的判断力才真正开始闪耀。

Toyota 生产方式(TPS)也是同样的结构。拉下 andon 绳,生产线停下来,问题解决之前一辆车也不会出厂。标准作业书(SOP)创造了可重复的品质。但 TPS 真正的威力不在于 SOP 本身。正因为 SOP 消除了日常运营中的波动,工程师们才有时间去做 kaizen,根本性的改进。结构承担了重复,人才专注于改善。

阿图尔·葛文德的研究把这个原理带进了手术室。引入 WHO 手术安全清单的医院,手术并发症减少了 36%,死亡率降低了 47%。清单不过是一张 19 个条目的纸。它并没有提高外科医生的技术,而是把"别忘了纱布"之类的认知负荷交给了系统,让外科医生能够专注于真正困难的判断:对意外出血的即时应对,手术方案的实时重新设计。

模式是一致的。当结构承担了重复,人类的能力就会集中到判断与创造上。 系统的价值不在于取代天赋,而在于减少天赋被浪费的地方,提高天赋所需之处的密度。

同样的原理也适用于 AI

当下 AI 行业的主流叙事是"更大的模型、更多的参数、更高的基准分数”。这种信念认为,模型变聪明了,问题就解决了。部分是对的,但只对了一半。

给最强大的模型一个没有结构的指令"做个应用出来",会发生什么?前 100 行代码很整洁。超过 500 行就开始忘记自己创建的接口。到 1000 行,前面定下的规则在后面被违反。端点超过 30 个时,数据库 Schema 和 API 规范开始悄悄错位。

这不是因为模型蠢。在上下文窗口内保持所有决策的一致性,在结构上几乎不可能。人类也做不到。和 B-17 飞行员做不到的原因一样。当复杂度超过一个主体的认知容量时,无论这个主体多么优秀,都会遗漏。

我把这称为漂移(drift)。智能体在反复循环中逐渐偏离初始规范的现象。没有结构,漂移就是必然。升级模型只会推迟漂移发生的时间点,不会让它消失。

关键在于:没有结构,即使是 Opus 也会把推理力浪费在记忆字段名上。有了结构,Opus 就能把推理力集中在"如何分解这个领域"上。聪明的模型只有在结构处理了平凡工作之后,才能做出聪明的工作。

43 分钟,32 个端点,零缺陷

有证据。ZenFlow 基准测试。

Claude Sonnet 4.6,不是最顶级的模型(Opus),而是中档模型,在 yongol 的 SSOT 结构中,从头到尾构建了一个完整的应用。

结果:

  • 32 个端点9 张数据库表9 个查询文件37 个 Hurl 测试,全部通过
  • 耗时约 43 分钟
  • 代码生成缺陷 0 个

模型并非没有犯错。有 4 个错误(BUG-077~080)。重要的是,这 4 个全部被归类为"SSOT 编写错误"。不是代码生成器的缺陷:智能体写错了规范。而系统捕获了这些错误。validate 报告了失败,智能体修正了规范,重新运行,通过了。

43 分钟中大约 16 分钟花在了这个 validate 反复上。这是系统教导智能体的时间。

Sonnet 比 Opus"不那么聪明",基准分数全面更低。但在结构内部,它产出了生产级质量的代码。这不是因为不需要天才,而是因为结构承担了执行,天才就不必再为此操心。

正因为结构让 Sonnet 也能以足够的质量胜任执行,天才模型才能只被投入到设计和判断这些真正高难度的领域。就像 McDonald’s 员工能做出一致的汉堡,总部的大厨才能构思新品,这是同样的机制。

三个齿轮

将这个结构分解,会得到三个组成要素。我称之为 Ratchet Pattern。三个齿轮各自承担"天才不需要操心的事情"。

1. SSOT:要做什么

Single Source of Truth。在 yongol 中,9 个声明式规范文件承担这个角色。OpenAPI 定义端点,DDL 定义表,Rego 定义权限。关键是这 9 个通过 operationId 这一单一标识符串联在一起。一个端点的 API 规范、数据库查询、测试、权限规则全部用同一个键绑定。

SSOT 承担的是:记忆。字段名、关系、约束条件。天才不需要记忆它们,规范来记忆。

2. Codegen:怎么做

从 SSOT 生成代码。智能体不是自由编写代码,而是编写从规范派生的代码。漂移在结构上被抑制。规范中没有的不能创建,规范中有的不能遗漏。

Codegen 承担的是:重复。为 32 个端点逐一编写样板代码不是天才该做的事。结构来做。

3. Gate:做对了吗

确定性验证。validate 检查 9 个规范之间的一致性。operationId 在 OpenAPI 中存在但在 Hurl 测试中缺失就会失败。DDL 中有列但 sqlc 查询中未引用就会警告。不通过就不能进入下一步。

Gate 承担的是:检验。用人眼确认 32 个端点之间的一致性,和 B-17 飞行员靠脑子记忆程序是一样的。测量值决定合格。

这三个齿轮啮合在一起就形成了棘轮。一旦通过就不会倒退。智能体犯错,Gate 捕获,智能体修正,再次验证。这个循环的唯一出口是"通过"。而在整个循环运转期间,天才可以在构思下一个问题的设计。

天才闪耀的时刻

那么天才用在哪里?结构之外的所有地方。那里才是真正创造价值的地方。

写 McDonald’s 手册的人不是兼职店员。设计配方、分解工序、决定在哪个环节加入检查的是专家。Toyota 的 andon 绳也一样。定义停线条件的是大野耐一的洞察。系统承担执行,不承担设计。设计是天才的领域。正因为结构卸下了执行的重担,天才才能全身心投入设计。

在 AI 中也一样。编写 yongol 的 SSOT(判断需要哪些端点、设计表关系、决定权限模型)是需要深度推理的工作。结构形成之前的探索、前所未有的架构判断、“如何分解这个问题"这个提问,这些无法放入结构之中。强大模型的推理力在这里闪耀。

所以我在实际工作中分模型使用。设计和判断交给 Opus,结构内的执行交给 Sonnet。这种双模型模式正是"系统让天才闪耀"的最直接实现。Opus 不会把推理力浪费在字段名或样板代码上,因为结构承担了那些。Opus 只专注于架构决策、领域分解、边界情况判断,只有 Opus 才能做的事。

建筑师不搬砖,不是不尊重砖的重要性。团队处理搬砖,建筑师才能专注于图纸。把最优秀的人才投入到每一项工序不是面面俱到,而是浪费。

不是节省昂贵的模型,而是正确地使用

来看价格。

Claude Sonnet 的输出 token 价格是 $15/M-token。Opus 是 $75/M-token。5 倍差距。没有结构把全流程交给 Opus,Opus 的大部分推理力会消耗在样板代码生成和字段名一致性维护上。就像让时薪 $75 的建筑师去搬砖。

有了结构就不同了。执行(代码生成、一致性维护、测试通过)由 Sonnet 在结构内处理。正如 ZenFlow 所证明的,以 100% 通过 Gate 的品质。Opus 只投入到设计和判断。同样的预算,Opus 的推理力以 5 倍密度集中。

这不是降低成本,而是预算分配。天才需要的地方用天才,结构够用的地方用结构。总成本下降只是附带效果,真正的效果是产出质量的提升。天才做天才的工作时产出的成果,与天才淹没在杂务中时,完全不是一个维度。

尚未回答的问题

公平地说,还有些东西尚未得到证明。

ZenFlow 是一个基准测试。32 个端点在实际工作中算中等规模。200 个端点下同样的模式是否依然成立,还在验证中。yongol 的上下文压缩约 10 倍这一测量结果已有,但在数百个端点下是否线性扩展,还需要更多数据。

还有一点。编写 SSOT 本身需要专业能力。回到 McDonald’s 的比喻:首先得有能写手册的人。结构要让天才闪耀,首先需要能设计结构的天才。这不是循环,而是顺序。一次设计支撑无限次执行。

但核心主张不会动摇。

乘法

“AI 有多聪明?“只是半个问题。

另一半是:“你的结构把那份智能集中到了哪里?”

B-17 没有检查清单时,最优秀的飞行员也会坠毁。有了检查清单之后,普通飞行员也能安全飞行 180 万英里,而优秀的飞行员获得了应对前所未有挑战的余裕。如果 Toyota 不用 andon 绳而是说"多招些优秀技术员”,精益生产就不会存在。正因为有了 andon,技术员们才能专注于 kaizen。

AI 也一样。模型每年都会出新的。去年的最强模型是今年的中档。但对结构的投资,即使模型更换也会留存。SSOT 规范在 Sonnet 上能运行,在 Opus 上能运行,在明年出的模型上也能运行。而且模型越强,结构所解放的推理力总量就越大。结构的价值随模型一同增长。

天才独行会迷失方向。结构独行会趋于平庸。当天才与结构相乘,那时才能到达任何一方单独都无法企及的地方。

系统并非战胜天才,而是让天才更加闪耀。这不是什么新发现,这是从 1935 年起就已被证明的事实。只是我们还没有把它应用到 AI 上而已。

相关文章

延伸阅读(外部)

参考文献

  • Ohno, T. (1988). Toyota Production System: Beyond Large-Scale Production. Productivity Press.
  • Gawande, A. (2009). The Checklist Manifesto: How to Get Things Right. Metropolitan Books.
  • Haynes, A. B., et al. (2009). “A Surgical Safety Checklist to Reduce Morbidity and Mortality in a Global Population.” New England Journal of Medicine, 360(5), 491-499.
  • World Health Organization. (2009). WHO Surgical Safety Checklist. WHO Patient Safety.
  • B-17 checklist case: Schamel, J. (2012). “How the Pilot’s Checklist Came About.” Flight Safety Australia Magazine.

变更历史

  • 2026-06-25: 首次发布