让 AI Agent 为 527 个函数编写测试,它在第 40 个时宣布'完成了'。Ratchet Pattern 通过将完成判定交给机械式 verifier,迫使 Agent 走到终点。
同一个模型,有时止步于40个,有时完成全部527个。差异不在模型,而在反馈结构。LLM的性能更大程度上取决于它所处的反馈循环有多快、多确定,而非模型本身的能力。
人类在黑暗中反复撞向同一面墙。如果我们能将失败数据结构化并进行交易,沉没成本就会变成资产,失败地图上的空白就是机会。