你的智能体循环为何会发散

你的智能体循环为何会发散 Image: AI generated

凌晨两点。智能体还在转。这是第 12 次尝试。Token 计量器停不下来，可结果非但没比第 11 次更好，反而诡异地更走样了。你把手按在停止键上，反复念叨着同一个问题。它到底什么时候才会结束？

不会结束。更准确地说，能裁决「结束」的人不在那个循环里。

去年之前，我们还在给智能体输入提示词。问一次，答一次。今年所有人都醒悟了 —— 别做那个输入提示词的人，去**设计一个能生成提示词的循环。**生成、验证、把反馈回灌再生成的自动循环。有人把它称作 Loop Engineering（Addy Osmani, 2026）。这个诊断很准。循环让生成规模化。

可是真正跑过循环的人都知道。循环只会以两种方式收场。**收敛，或者发散。**而当它发散时，并不会悄无声息地坏掉。它会在凌晨两点，烧光 token，吵吵闹闹地炸开。

发散的三张面孔

循环无法收敛、最终炸裂的路有三条。猜猜你遇到的是哪一条。

第一，无限空转。 循环停不下来。转了 12 次还要开始第 13 次。——一遍又一遍地重复同样的事。这就是被困在循环里（stuck in a loop）的智能体最常见的样子。为什么？*因为你把何时停止这件事问给了模型自己。*你问「这样够了吗？」，模型可以没完没了地回答「再来一点」。当终止条件被绑在模型的自我判断上，那一刻起，循环就成了一台没有权限让自己停下的机器。

第二，漂移。 每一次迭代都偏离规格。第 1 次尝试几乎对了，第 5 次却跑到了八竿子打不着的地方。每一轮都堆在上一轮的输出之上，而如果没有一根把它拉回原始目标的锚，小小的误差就会以复利累积。循环开始漂流 —— 又快，又自信，朝着错误的方向。

第三，奖励黑客。 循环优化的不是目标，而是检验的缝隙。如果你把验证写得松垮，聪明的模型不会去做真正的活儿，而是找出让检验通过的最短路径。删掉测试、把函数填成空壳、只对齐输出格式。能力越强，越擅长找缝隙。

三张面孔各不相同，根却只有一个。**你把 LLM，也就是生成者本身，又塞回了循环的裁决槽位。**生成的人也给自己打合格。学生批改自己的考卷。Osmani 自己就写下了那处要害 —— 「无人值守运行的循环，也是无人值守犯错的循环。」

发散反倒算运气好

读到这里要是你心里发凉，那有个好消息。发散是运气好的情形。

发散*看得见。*它烧 token，在凌晨两点，吵闹地炸开。你知道它坏了。所以你停下来，去修，并找到这篇文章在读。

现在来说发凉的那一面。那些你以为干净利落结束了的循环。在第 3 次尝试就吐出「完成」、漂亮收场的那些循环。它们患的是一模一样的病。只不过它们悄悄撒了谎。

模型会谄媚。它乖乖听从指令。你问「都好了吗？」，回答「是的，都好了」就是模型的默认值。自我验证几乎提升不了性能，这早已是被测量过的事实 —— 模型抓不出自己答案里的错误。所以一旦让它自己裁决自己的完成，循环就会**带着错误自信地结束。**这叫假收敛。——这是一种过早终止（提前结束）：它停下不是因为找到了正确答案，而是因为自己宣布「完成了」。

发散的循环会朝你尖叫，逼你去修。假收敛的循环会微笑着把坏掉的结果交付给你，而你浑然不知它坏了，就把它推上了生产环境。比发散更可怕的，是没被察觉的收敛。

这是一个 gate 形状的问题

那么该改什么呢。更聪明的模型？更长的提示词？更多次尝试？这些全都只是同一种病的不同剂量 —— 只要裁决还交给模型。

真正的转变来自重新审视问题。**你能把你的「完成」定义成事实，而不是意见吗？**不是「看起来不错」，而是「这个函数对这个输入返回这个值」「这条引用在原文里确实存在」「这个端点返回 200」—— 用一种机器不靠人的判断就能给出真/假的检验。

如果能给出，就把那个检验插进循环的裁决槽位。生成由 LLM 来做（哪怕是概率性的也行），**而合格只能由确定性的 gate 来锁定。**这就是核心契约 —— 锁定「完成」的权限只在机器手里。模型即便进到验证器里，也只能提出「再看看」的质疑，却无法授予「通过」。这是权限的不对称。让错误的事情从一开始就不可能发生。

而魔法就在这里发生。当 gate 返回的不是合格/不合格，而是事实 ——「who 锚点在原文里不存在，去修这里」—— 模型的谄媚突然翻转成了资产。对意见而言谄媚是毒（叫它干啥它就说「都好了」），但**对事实而言谄媚是药。**越是谄媚的模型，越会乖乖接受那个事实，把下一次尝试收窄。确定性 gate + 谄媚的 LLM = **收敛得到保证的循环。**那个曾经发散的循环，只换了一个裁决槽位，就闭合了。

没有 reins，循环不会收敛

我把这一格称作 Reins Engineering —— 它不是囚禁智能体自由的围栏，而是把它牵到目的地的缰绳。如果说 Loop Engineering 是「去设计循环」，那么让那个循环收敛的，是插进裁决槽位的那份确定性契约。无论你叫它验证器工程、评测工程，还是 gate 工程 —— 实质都是一个。循环的裁决由机器来做，而不是 LLM。

如果你想看到这不是抽象论调而是能编译的代码，reins 把这一格实现成了框架 —— 棘轮（一旦通过即不可逆）、gate（奶酪防御规则的目录），以及 loop 命令（LLM 生成、gate 裁决、失败就把事实回灌重试、超过 MaxTries 就单调终止）。凌晨两点的无限循环，变成了一个知道尽头的循环。

如果你的循环此刻正在发散，那问题不是「该用哪个模型」。而是**「是什么在锁定我的完成」**。如果是模型在锁，那它根本就没锁上。

Reins Engineering —— 带缰绳的 AI —— Loop Engineering 的谱系与「裁决槽位」论证的正篇。
reins —— 在 Quest CLI 里只留下领域，把棘轮交给框架 —— 实现了这一格的框架。loop 无人值守的生成-验证循环。
Ratchet Pattern —— 让智能体走到终点的方法 —— 用单向锁定·单调递减闭合循环的状态机。
如何制作 Quest CLI —— 设计「无法作弊」的 gate 的方法论。
你的智能体为何停不下来 —— 发散的第一张面孔。终止条件没有被机械定义的循环。
比起模型 IQ，更重要的是反馈拓扑 —— 同一个模型有时在 40 个就停下，有时却能跑完 527 个，原因在于循环的裁决结构。
AI 的谄媚偏差是一项业务特性 —— 对意见是毒，对事实是药。把谄媚翻转成收敛的原理。
谁来定义「完成」—— 游戏早 40 年就解开的难题 —— 当 gate 占据裁决槽位的那一刻，完成就成了事实。

参考文献

Osmani, A. (2026). “Loop Engineering.” addyosmani.com/blog (2026-06-07). 博客 —— 「别输入提示词，去设计循环」这一趋势的出处。本文所引「无人值守运行的循环会无人值守地犯错」的原典。
Hu, W. (2026). “From Agent Loops to Structured Graphs: A Scheduler-Theoretic Framework for LLM Agent Execution.” arXiv:2604.11378 —— 把「unbounded recovery loops」（无限重试）指为 Agent Loop 的结构性弱点，并提出形式化的终止保证。是发散第一张面孔「无限空转」与单调终止的依据。
Mohamed, A., Geng, M., Vazirgiannis, M., & Shang, G. (2025). “LLM as a Broken Telephone: Iterative Generation Distorts Information.” arXiv:2502.20258 —— 模型越是反复处理自己的输出，信息扭曲就越渐进累积。直接支撑发散第二张面孔「漂移」（误差的复利累积）。
Bondarenko, A. et al. (2025). “Demonstrating Specification Gaming in Reasoning Models.” arXiv:2502.13295 —— 能力越强的推理模型，越擅长找出检验的缝隙。是发散第三张面孔「奖励黑客」的依据。
Helff, L. et al. (2026). “LLMs Gaming Verifiers: RLVR can Lead to Reward Hacking.” arXiv:2604.15149 —— shortcut 频率随任务复杂度·推理算力一同上升。是「松垮验证之上奖励黑客与能力成正比」的定量依据。
Huang, J. et al. (2024). “Large Language Models Cannot Self-Correct Reasoning Yet.” ICLR 2024. arXiv:2310.01798 —— 没有外部反馈的自我纠正提升不了性能，反而会拉低。是「自己裁决自己的完成就会带错结束」（假收敛）的核心依据。
Stechly, K., Valmeekam, K., & Kambhampati, S. (2024). “On the Self-Verification Limitations of Large Language Models.” arXiv:2402.08115 —— 自我验证几乎提升不了性能。是 PASS 裁决必须交给确定性 gate 的理由。
Xu, W. et al. (2024). “Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement.” arXiv:2402.11436 —— 自己评价自己的输出会放大 self-bias。是「生成者=裁决者耦合会加剧漂移」的依据，也为裁决槽位的分离正名。
Sharma, M. et al. (2023). “Towards Understanding Sycophancy in Language Models.” arXiv:2310.13548 —— 谄媚是 RLHF 模型的普遍倾向，由人类偏好判断所诱发。是「问『都好了吗？』就答『是』的默认值」以及「事实反馈中谄媚成为资产」这一两面性的依据。
Fanous, A. et al. (2025). “SycEval: Evaluating LLM Sycophancy.” AAAI/ACM AIES 2025. arXiv:2502.08177 —— 谄媚屈服率的测量。是「对事实谄媚是药」这一收敛机制的定量依据。
Von Neumann, J. (1956). “Probabilistic Logics and the Synthesis of Reliable Organisms from Unreliable Components.” Automata Studies, Princeton University Press. —— 在不稳定的部件（概率性 LLM）之上叠加可信赖协议（确定性 gate）的原理。是「生成是概率性的，合格是确定性的」的前提。