系统让天才更加闪耀

系统让天才更加闪耀 图片：AI 生成

McDonald’s 的员工不是米其林大厨。但在首尔吃到的巨无霸和在纽约吃到的巨无霸味道一样。系统创造了一致性。

到这里，大多数人会得出结论：“不需要天赋，系统就够了。“我曾经也这样想。错了。

McDonald’s 的系统并没有取代大厨，而是解放了大厨。正因为门店员工不再需要记住烤架温度，总部的大厨才能专注于新品研发。系统承担了重复劳动，人类的创造力才得以集中到只有创造力才能解决的地方。系统不是取代天才，而是创造了让天才成为天才的条件。

同样的原理也适用于 AI 智能体。没有结构的天才会迷失方向。只有结构则趋于平庸。将两者结合时，真正有趣的事情才会发生。

结构创造解放的历史

1935 年，Boeing B-17 在试飞中坠毁。不是因为飞行员无能，而是因为飞机变得太复杂，一个人的记忆力已经无法消化所有程序。解决方案不是找更优秀的飞行员，而是制作检查清单。此后，B-17 累计飞行了 180 万英里零事故。

通常的解读是"检查清单取代了飞行员的技能”。但实际发生的事情不同。正因为检查清单承担了程序记忆这一认知负荷，飞行员才能全身心投入到情境判断：湍流中的决断，紧急情况下的优先级重新排列。当检查清单接管了机械性重复，飞行员的判断力才真正开始闪耀。

Toyota 生产方式（TPS）也是同样的结构。拉下 andon 绳，生产线停下来，问题解决之前一辆车也不会出厂。标准作业书（SOP）创造了可重复的品质。但 TPS 真正的威力不在于 SOP 本身。正因为 SOP 消除了日常运营中的波动，工程师们才有时间去做 kaizen，根本性的改进。结构承担了重复，人才专注于改善。

阿图尔·葛文德的研究把这个原理带进了手术室。引入 WHO 手术安全清单的医院，手术并发症减少了 36%，死亡率降低了 47%。清单不过是一张 19 个条目的纸。它并没有提高外科医生的技术，而是把"别忘了纱布"之类的认知负荷交给了系统，让外科医生能够专注于真正困难的判断：对意外出血的即时应对，手术方案的实时重新设计。

模式是一致的。当结构承担了重复，人类的能力就会集中到判断与创造上。 系统的价值不在于取代天赋，而在于减少天赋被浪费的地方，提高天赋所需之处的密度。

同样的原理也适用于 AI

当下 AI 行业的主流叙事是"更大的模型、更多的参数、更高的基准分数”。这种信念认为，模型变聪明了，问题就解决了。部分是对的，但只对了一半。

给最强大的模型一个没有结构的指令"做个应用出来"，会发生什么？前 100 行代码很整洁。超过 500 行就开始忘记自己创建的接口。到 1000 行，前面定下的规则在后面被违反。端点超过 30 个时，数据库 Schema 和 API 规范开始悄悄错位。

这不是因为模型蠢。在上下文窗口内保持所有决策的一致性，在结构上几乎不可能。人类也做不到。和 B-17 飞行员做不到的原因一样。当复杂度超过一个主体的认知容量时，无论这个主体多么优秀，都会遗漏。

我把这称为漂移（drift）。智能体在反复循环中逐渐偏离初始规范的现象。没有结构，漂移就是必然。升级模型只会推迟漂移发生的时间点，不会让它消失。

关键在于：没有结构，即使是 Opus 也会把推理力浪费在记忆字段名上。有了结构，Opus 就能把推理力集中在"如何分解这个领域"上。聪明的模型只有在结构处理了平凡工作之后，才能做出聪明的工作。

43 分钟，32 个端点，零缺陷

有证据。ZenFlow 基准测试。

Claude Sonnet 4.6，不是最顶级的模型（Opus），而是中档模型，在 yongol 的 SSOT 结构中，从头到尾构建了一个完整的应用。

结果：

32 个端点、9 张数据库表、9 个查询文件、37 个 Hurl 测试，全部通过
耗时约 43 分钟
代码生成缺陷 0 个

模型并非没有犯错。有 4 个错误（BUG-077~080）。重要的是，这 4 个全部被归类为"SSOT 编写错误"。不是代码生成器的缺陷：智能体写错了规范。而系统捕获了这些错误。validate 报告了失败，智能体修正了规范，重新运行，通过了。

43 分钟中大约 16 分钟花在了这个 validate 反复上。这是系统教导智能体的时间。

Sonnet 比 Opus"不那么聪明"，基准分数全面更低。但在结构内部，它产出了生产级质量的代码。这不是因为不需要天才，而是因为结构承担了执行，天才就不必再为此操心。

正因为结构让 Sonnet 也能以足够的质量胜任执行，天才模型才能只被投入到设计和判断这些真正高难度的领域。就像 McDonald’s 员工能做出一致的汉堡，总部的大厨才能构思新品，这是同样的机制。

三个齿轮

将这个结构分解，会得到三个组成要素。我称之为 Ratchet Pattern。三个齿轮各自承担"天才不需要操心的事情"。

1. SSOT：要做什么

Single Source of Truth。在 yongol 中，9 个声明式规范文件承担这个角色。OpenAPI 定义端点，DDL 定义表，Rego 定义权限。关键是这 9 个通过 operationId 这一单一标识符串联在一起。一个端点的 API 规范、数据库查询、测试、权限规则全部用同一个键绑定。

SSOT 承担的是：记忆。字段名、关系、约束条件。天才不需要记忆它们，规范来记忆。

2. Codegen：怎么做

从 SSOT 生成代码。智能体不是自由编写代码，而是编写从规范派生的代码。漂移在结构上被抑制。规范中没有的不能创建，规范中有的不能遗漏。

Codegen 承担的是：重复。为 32 个端点逐一编写样板代码不是天才该做的事。结构来做。

3. Gate：做对了吗

确定性验证。validate 检查 9 个规范之间的一致性。operationId 在 OpenAPI 中存在但在 Hurl 测试中缺失就会失败。DDL 中有列但 sqlc 查询中未引用就会警告。不通过就不能进入下一步。

Gate 承担的是：检验。用人眼确认 32 个端点之间的一致性，和 B-17 飞行员靠脑子记忆程序是一样的。测量值决定合格。

这三个齿轮啮合在一起就形成了棘轮。一旦通过就不会倒退。智能体犯错，Gate 捕获，智能体修正，再次验证。这个循环的唯一出口是"通过"。而在整个循环运转期间，天才可以在构思下一个问题的设计。

天才闪耀的时刻

那么天才用在哪里？结构之外的所有地方。那里才是真正创造价值的地方。

写 McDonald’s 手册的人不是兼职店员。设计配方、分解工序、决定在哪个环节加入检查的是专家。Toyota 的 andon 绳也一样。定义停线条件的是大野耐一的洞察。系统承担执行，不承担设计。设计是天才的领域。正因为结构卸下了执行的重担，天才才能全身心投入设计。

在 AI 中也一样。编写 yongol 的 SSOT（判断需要哪些端点、设计表关系、决定权限模型）是需要深度推理的工作。结构形成之前的探索、前所未有的架构判断、“如何分解这个问题"这个提问，这些无法放入结构之中。强大模型的推理力在这里闪耀。

所以我在实际工作中分模型使用。设计和判断交给 Opus，结构内的执行交给 Sonnet。这种双模型模式正是"系统让天才闪耀"的最直接实现。Opus 不会把推理力浪费在字段名或样板代码上，因为结构承担了那些。Opus 只专注于架构决策、领域分解、边界情况判断，只有 Opus 才能做的事。

建筑师不搬砖，不是不尊重砖的重要性。团队处理搬砖，建筑师才能专注于图纸。把最优秀的人才投入到每一项工序不是面面俱到，而是浪费。

不是节省昂贵的模型，而是正确地使用

来看价格。

Claude Sonnet 的输出 token 价格是 $15/M-token。Opus 是 $75/M-token。5 倍差距。没有结构把全流程交给 Opus，Opus 的大部分推理力会消耗在样板代码生成和字段名一致性维护上。就像让时薪 $75 的建筑师去搬砖。

有了结构就不同了。执行（代码生成、一致性维护、测试通过）由 Sonnet 在结构内处理。正如 ZenFlow 所证明的，以 100% 通过 Gate 的品质。Opus 只投入到设计和判断。同样的预算，Opus 的推理力以 5 倍密度集中。

这不是降低成本，而是预算分配。天才需要的地方用天才，结构够用的地方用结构。总成本下降只是附带效果，真正的效果是产出质量的提升。天才做天才的工作时产出的成果，与天才淹没在杂务中时，完全不是一个维度。

尚未回答的问题

公平地说，还有些东西尚未得到证明。

ZenFlow 是一个基准测试。32 个端点在实际工作中算中等规模。200 个端点下同样的模式是否依然成立，还在验证中。yongol 的上下文压缩约 10 倍这一测量结果已有，但在数百个端点下是否线性扩展，还需要更多数据。

还有一点。编写 SSOT 本身需要专业能力。回到 McDonald’s 的比喻：首先得有能写手册的人。结构要让天才闪耀，首先需要能设计结构的天才。这不是循环，而是顺序。一次设计支撑无限次执行。

但核心主张不会动摇。

乘法

“AI 有多聪明？“只是半个问题。

另一半是：“你的结构把那份智能集中到了哪里？”

B-17 没有检查清单时，最优秀的飞行员也会坠毁。有了检查清单之后，普通飞行员也能安全飞行 180 万英里，而优秀的飞行员获得了应对前所未有挑战的余裕。如果 Toyota 不用 andon 绳而是说"多招些优秀技术员”，精益生产就不会存在。正因为有了 andon，技术员们才能专注于 kaizen。

AI 也一样。模型每年都会出新的。去年的最强模型是今年的中档。但对结构的投资，即使模型更换也会留存。SSOT 规范在 Sonnet 上能运行，在 Opus 上能运行，在明年出的模型上也能运行。而且模型越强，结构所解放的推理力总量就越大。结构的价值随模型一同增长。

天才独行会迷失方向。结构独行会趋于平庸。当天才与结构相乘，那时才能到达任何一方单独都无法企及的地方。

系统并非战胜天才，而是让天才更加闪耀。这不是什么新发现，这是从 1935 年起就已被证明的事实。只是我们还没有把它应用到 AI 上而已。

参考文献

Ohno, T. (1988). Toyota Production System: Beyond Large-Scale Production. Productivity Press.
Gawande, A. (2009). The Checklist Manifesto: How to Get Things Right. Metropolitan Books.
Haynes, A. B., et al. (2009). “A Surgical Safety Checklist to Reduce Morbidity and Mortality in a Global Population.” New England Journal of Medicine, 360(5), 491-499.
World Health Organization. (2009). WHO Surgical Safety Checklist. WHO Patient Safety.
B-17 checklist case: Schamel, J. (2012). “How the Pilot’s Checklist Came About.” Flight Safety Australia Magazine.