让 AI Agent 为 527 个函数编写测试,它在第 40 个时宣布'完成了'。Ratchet Pattern 通过将完成判定交给机械式 verifier,迫使 Agent 走到终点。
同一个模型,有时止步于40个,有时完成全部527个。差异不在模型,而在反馈结构。LLM的性能更大程度上取决于它所处的反馈循环有多快、多确定,而非模型本身的能力。