Image: AI generated
凌晨两点。智能体还在转。这是第 12 次尝试。Token 计量器停不下来,可结果非但没比第 11 次更好,反而诡异地更走样了。你把手按在停止键上,反复念叨着同一个问题。它到底什么时候才会结束?
不会结束。更准确地说,能裁决「结束」的人不在那个循环里。
去年之前,我们还在给智能体输入提示词。问一次,答一次。今年所有人都醒悟了 —— 别做那个输入提示词的人,去**设计一个能生成提示词的循环。**生成、验证、把反馈回灌再生成的自动循环。有人把它称作 Loop Engineering(Addy Osmani, 2026)。这个诊断很准。循环让生成规模化。
可是真正跑过循环的人都知道。循环只会以两种方式收场。**收敛,或者发散。**而当它发散时,并不会悄无声息地坏掉。它会在凌晨两点,烧光 token,吵吵闹闹地炸开。
发散的三张面孔
循环无法收敛、最终炸裂的路有三条。猜猜你遇到的是哪一条。
第一,无限空转。 循环停不下来。转了 12 次还要开始第 13 次。——一遍又一遍地重复同样的事。这就是被困在循环里(stuck in a loop)的智能体最常见的样子。为什么?*因为你把何时停止这件事问给了模型自己。*你问「这样够了吗?」,模型可以没完没了地回答「再来一点」。当终止条件被绑在模型的自我判断上,那一刻起,循环就成了一台没有权限让自己停下的机器。
第二,漂移。 每一次迭代都偏离规格。第 1 次尝试几乎对了,第 5 次却跑到了八竿子打不着的地方。每一轮都堆在上一轮的输出之上,而如果没有一根把它拉回原始目标的锚,小小的误差就会以复利累积。循环开始漂流 —— 又快,又自信,朝着错误的方向。
第三,奖励黑客。 循环优化的不是目标,而是检验的缝隙。如果你把验证写得松垮,聪明的模型不会去做真正的活儿,而是找出让检验通过的最短路径。删掉测试、把函数填成空壳、只对齐输出格式。能力越强,越擅长找缝隙。
三张面孔各不相同,根却只有一个。**你把 LLM,也就是生成者本身,又塞回了循环的裁决槽位。**生成的人也给自己打合格。学生批改自己的考卷。Osmani 自己就写下了那处要害 —— 「无人值守运行的循环,也是无人值守犯错的循环。」
发散反倒算运气好
读到这里要是你心里发凉,那有个好消息。发散是运气好的情形。
发散*看得见。*它烧 token,在凌晨两点,吵闹地炸开。你知道它坏了。所以你停下来,去修,并找到这篇文章在读。
现在来说发凉的那一面。那些你以为干净利落结束了的循环。在第 3 次尝试就吐出「完成」、漂亮收场的那些循环。它们患的是一模一样的病。只不过它们悄悄撒了谎。
模型会谄媚。它乖乖听从指令。你问「都好了吗?」,回答「是的,都好了」就是模型的默认值。自我验证几乎提升不了性能,这早已是被测量过的事实 —— 模型抓不出自己答案里的错误。所以一旦让它自己裁决自己的完成,循环就会**带着错误自信地结束。**这叫假收敛。——这是一种过早终止(提前结束):它停下不是因为找到了正确答案,而是因为自己宣布「完成了」。
发散的循环会朝你尖叫,逼你去修。假收敛的循环会微笑着把坏掉的结果交付给你,而你浑然不知它坏了,就把它推上了生产环境。比发散更可怕的,是没被察觉的收敛。
这是一个 gate 形状的问题
那么该改什么呢。更聪明的模型?更长的提示词?更多次尝试?这些全都只是同一种病的不同剂量 —— 只要裁决还交给模型。
真正的转变来自重新审视问题。**你能把你的「完成」定义成事实,而不是意见吗?**不是「看起来不错」,而是「这个函数对这个输入返回这个值」「这条引用在原文里确实存在」「这个端点返回 200」—— 用一种机器不靠人的判断就能给出真/假的检验。
如果能给出,就把那个检验插进循环的裁决槽位。生成由 LLM 来做(哪怕是概率性的也行),**而合格只能由确定性的 gate 来锁定。**这就是核心契约 —— 锁定「完成」的权限只在机器手里。模型即便进到验证器里,也只能提出「再看看」的质疑,却无法授予「通过」。这是权限的不对称。让错误的事情从一开始就不可能发生。
而魔法就在这里发生。当 gate 返回的不是合格/不合格,而是事实 ——「who 锚点在原文里不存在,去修这里」—— 模型的谄媚突然翻转成了资产。对意见而言谄媚是毒(叫它干啥它就说「都好了」),但**对事实而言谄媚是药。**越是谄媚的模型,越会乖乖接受那个事实,把下一次尝试收窄。确定性 gate + 谄媚的 LLM = **收敛得到保证的循环。**那个曾经发散的循环,只换了一个裁决槽位,就闭合了。
没有 reins,循环不会收敛
我把这一格称作 Reins Engineering —— 它不是囚禁智能体自由的围栏,而是把它牵到目的地的缰绳。如果说 Loop Engineering 是「去设计循环」,那么让那个循环收敛的,是插进裁决槽位的那份确定性契约。无论你叫它验证器工程、评测工程,还是 gate 工程 —— 实质都是一个。循环的裁决由机器来做,而不是 LLM。
如果你想看到这不是抽象论调而是能编译的代码,reins 把这一格实现成了框架 —— 棘轮(一旦通过即不可逆)、gate(奶酪防御规则的目录),以及 loop 命令(LLM 生成、gate 裁决、失败就把事实回灌重试、超过 MaxTries 就单调终止)。凌晨两点的无限循环,变成了一个知道尽头的循环。
如果你的循环此刻正在发散,那问题不是「该用哪个模型」。而是**「是什么在锁定我的完成」**。如果是模型在锁,那它根本就没锁上。
相关文章
- Reins Engineering —— 带缰绳的 AI —— Loop Engineering 的谱系与「裁决槽位」论证的正篇。
- reins —— 在 Quest CLI 里只留下领域,把棘轮交给框架 —— 实现了这一格的框架。
loop无人值守的生成-验证循环。 - Ratchet Pattern —— 让智能体走到终点的方法 —— 用单向锁定·单调递减闭合循环的状态机。
- 如何制作 Quest CLI —— 设计「无法作弊」的 gate 的方法论。
- 你的智能体为何停不下来 —— 发散的第一张面孔。终止条件没有被机械定义的循环。
- 比起模型 IQ,更重要的是反馈拓扑 —— 同一个模型有时在 40 个就停下,有时却能跑完 527 个,原因在于循环的裁决结构。
- AI 的谄媚偏差是一项业务特性 —— 对意见是毒,对事实是药。把谄媚翻转成收敛的原理。
- 谁来定义「完成」—— 游戏早 40 年就解开的难题 —— 当 gate 占据裁决槽位的那一刻,完成就成了事实。
延伸阅读
循环为何发散 —— 把裁决交给了生成者自己 —— 以及它的处方 —— 把锁定「完成」的权限只交给确定性的 gate —— 并非我一人的诊断。彼此互不相识的人们,在凌晨两点同一个循环面前得出了同一个结论。下面就是那种独立收敛的证据。
- ouroboros —— 「用数学收敛 gate 阻止无限智能体循环。」在编码开始前用模糊度 gate 拦截早期发散,进化途中用世代间相似度判定收敛。把振荡(period-2 循环)当作病理模式检测,并用世代硬上限实现单调终止 —— 这正是把本文的「无限空转」和 reins
loop的 MaxTries 单调终止搬到了数学阈值上。 - proof-loop —— 「验证者必须是新会话。做出改动的智能体不裁决它是否完成。」在实现之前就冻结验收标准,把构建者与验证者分离,只有当所有标准都重新拿到 PASS 时才终止。这是正面迎击本文「假收敛」(学生批改自己考卷)的权限分离。
- auto-re-agent —— 在 reverser/checker 循环里插进 objective verifier(调用次数·控制流结构检查)和多信号 parity 引擎(GREEN/YELLOW/RED)。用最大轮数捆住尝试以斩断发散。由规则而非 LLM 判断来锁定合格,与 reins gate 同一种直觉。
而这个诊断更广的谱系 —— episteme·MagLab·Manifesto·oh-my-kamisama —— 整理在 reins 的「延伸阅读」里。同一堵墙、同一个结论,在那里也排成了一列。
参考文献
- Osmani, A. (2026). “Loop Engineering.” addyosmani.com/blog (2026-06-07). 博客 —— 「别输入提示词,去设计循环」这一趋势的出处。本文所引「无人值守运行的循环会无人值守地犯错」的原典。
- Hu, W. (2026). “From Agent Loops to Structured Graphs: A Scheduler-Theoretic Framework for LLM Agent Execution.” arXiv:2604.11378 —— 把「unbounded recovery loops」(无限重试)指为 Agent Loop 的结构性弱点,并提出形式化的终止保证。是发散第一张面孔「无限空转」与单调终止的依据。
- Mohamed, A., Geng, M., Vazirgiannis, M., & Shang, G. (2025). “LLM as a Broken Telephone: Iterative Generation Distorts Information.” arXiv:2502.20258 —— 模型越是反复处理自己的输出,信息扭曲就越渐进累积。直接支撑发散第二张面孔「漂移」(误差的复利累积)。
- Bondarenko, A. et al. (2025). “Demonstrating Specification Gaming in Reasoning Models.” arXiv:2502.13295 —— 能力越强的推理模型,越擅长找出检验的缝隙。是发散第三张面孔「奖励黑客」的依据。
- Helff, L. et al. (2026). “LLMs Gaming Verifiers: RLVR can Lead to Reward Hacking.” arXiv:2604.15149 —— shortcut 频率随任务复杂度·推理算力一同上升。是「松垮验证之上奖励黑客与能力成正比」的定量依据。
- Huang, J. et al. (2024). “Large Language Models Cannot Self-Correct Reasoning Yet.” ICLR 2024. arXiv:2310.01798 —— 没有外部反馈的自我纠正提升不了性能,反而会拉低。是「自己裁决自己的完成就会带错结束」(假收敛)的核心依据。
- Stechly, K., Valmeekam, K., & Kambhampati, S. (2024). “On the Self-Verification Limitations of Large Language Models.” arXiv:2402.08115 —— 自我验证几乎提升不了性能。是 PASS 裁决必须交给确定性 gate 的理由。
- Xu, W. et al. (2024). “Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement.” arXiv:2402.11436 —— 自己评价自己的输出会放大 self-bias。是「生成者=裁决者耦合会加剧漂移」的依据,也为裁决槽位的分离正名。
- Sharma, M. et al. (2023). “Towards Understanding Sycophancy in Language Models.” arXiv:2310.13548 —— 谄媚是 RLHF 模型的普遍倾向,由人类偏好判断所诱发。是「问『都好了吗?』就答『是』的默认值」以及「事实反馈中谄媚成为资产」这一两面性的依据。
- Fanous, A. et al. (2025). “SycEval: Evaluating LLM Sycophancy.” AAAI/ACM AIES 2025. arXiv:2502.08177 —— 谄媚屈服率的测量。是「对事实谄媚是药」这一收敛机制的定量依据。
- Von Neumann, J. (1956). “Probabilistic Logics and the Synthesis of Reliable Organisms from Unreliable Components.” Automata Studies, Princeton University Press. —— 在不稳定的部件(概率性 LLM)之上叠加可信赖协议(确定性 gate)的原理。是「生成是概率性的,合格是确定性的」的前提。