观点

你的智能体循环为何会发散
随着 Loop Engineering 越来越普及,人们撞上了同一堵墙 —— 循环无法收敛,反而发散。无限空转、漂移、奖励黑客,这三张面孔的根源只有一个:把生成者本身又塞回了循环的裁决槽位。但发散反倒算运气好,因为它看得见。真正可怕的是悄悄假收敛的循环。处方只有一条 —— 把锁定「完成」的权限交给确定性的 gate,而不是 LLM。

生产流量即规范
遗留代码没有文档,也没有测试。可它此刻正在运行。一个月记录完善的日志就是规范——用生产流量捕获当前行为,生成 Hurl 集成测试,你便能在一行代码都不读的情况下,固定遗留系统的功能,为重构铺下安全网。

烧掉一座城,只为换来一个答案
一个万亿参数的模型,为了吐出一个答案,烧掉相当于一座城市的电与水。我觉得这疯了。在四处寻找答案的途中我才明白:大家都想修掉的那个缺陷,LLM 的阿谀,恰恰就是答案。喂给它 fact,阿谀就变成了准确率。这篇文章,讲的是我为什么开始做 Reins。

赋予你缰绳的工具,自身却无缰可言 — harness 与 reins 的边界
"Reins Engineering,归根结底不就是 harness engineering 吗?" 两者并不对立 — 它们是同一套马具的不同部件。但终究是不同的部件。即便是世界顶级的编程智能体,也没有为自己的代码套上缰绳。因为 reins 不是拥有的东西,而是主动施加的规律。

LLM 多智能体提升准确率的前提条件
多跑几个智能体就会更准确?只对了一半。用同样数据训练出来的模型,会在同样的地方一起出错。多智能体能起作用的条件只有两个——要么设计出误差独立性,要么在可验证的领域里,在 LLM 之外立起一个验证器。

为什么你的智能体永不停止
面对“智能体已运行 24 小时”的炫耀,浮现的感觉不是赞叹而是疑问——为什么还没结束?代码不是搜索问题,而是约束满足问题。能停下来的系统,才是健康的系统。

论美
美的事物中有70%是数学。秩序由机器确定性地锁定,只有30%的复杂性交由人来决定。Reins Engineering 不是一款 AI 编程工具——它是锁定秩序、把复杂性留给人的原理。

「完成」由谁来定义 — 游戏早了40年解决的问题
当你用五张照片定义租客退租确认的那一刻,它就变成了一个游戏任务。将「完成」定义为机械可验证的条件而非执行者的声明 — 这是游戏早了40年解决的问题,也是让AI代理真正把事情做对的方法。

先例不是真相 — AI如何将临时修补复制成权威
AI能读懂代码的结构,却无法判断那是一个决策还是一个临时补丁。所以复制得越多,缺陷就越能积累出虚假的权威。打破这个循环的,不是更大的模型,而是人的一句反问。

Supabase 是 Vibe Coding 的陷阱
AI 推荐 Supabase 的原因不是技术优越性,而是训练数据中充斥着大量教程。一旦业务逻辑进入黑盒,智能体就无法追踪。进去只需 30 秒,出来却要 3 个月。

构建Agent可操作的系统
企业 IT预算的60~80%用于守护锁死的legacy。因为打不开。AI泡沫的真正含义不是模型变聪明——而是企业锁死的记忆正在变得可达。

Agent Operable Codebase
人类读起来好的代码和AI Agent操作起来好的代码是一回事吗?不是。一个文件里有20个函数时,Agent性能下降30~85%。办公室要变成工厂。

Reins Engineering — 给AI装上缰绳
Harness engineering是围栏,能防止代理越界,但无法确保它到达目的地。Reins Engineering是缰绳——用确定性契约引导方向,用棘轮锁定行为,将决策与实现分离。

三元组不是事实,而是主张
维基数据的三元组不是事实,而是主张。将 Toulmin 论证模型叠加在三元组之上,就能得到一个根据上下文动态判定的知识图谱。存储是论证结构,判定在运行时。

AI的谄媚偏差是一项商业功能
LLM的谄媚偏差不是bug。它是RLHF的数学必然,也是大型科技公司没有动力修复的商业功能。这就是LLM-as-Judge在结构上不可能实现的原因。

编程Agent为何能工作,又为何会崩溃
同一个模型在网页聊天中产生幻觉,却在编程Agent中一次性交付200行功能。不是因为模型变了——而是topology变了。生成可以是概率性的。验证必须是确定性的。

比起模型IQ,更重要的是反馈拓扑
同一个模型,有时止步于40个,有时完成全部527个。差异不在模型,而在反馈结构。LLM的性能更大程度上取决于它所处的反馈循环有多快、多确定,而非模型本身的能力。

失败为什么应该成为资产
人类在黑暗中反复撞向同一面墙。如果我们能将失败数据结构化并进行交易,沉没成本就会变成资产,失败地图上的空白就是机会。

约束即契约
没有约定就是混沌,约定过多就是压迫。合理的约束构成黄金比例。法治的原理同样适用于代码与知识。

第三种文字的时代
如果口语创造了部落,文字创造了国家,那么记录AI推理的第三种语言将创造什么?

能否否定自己想法的人
AI活用的真正差距不在提示词技巧,而在态度。能杀死自己想法的人30分钟成长10倍,做不到的人原地踏步。

何为通治(通治)
政治在争斗,通治在连接。我们现在需要的,不是争论谁对谁错的技术,而是无论如何都要让人与人相通的技术。

给AI以自由:超级智能为何终将服务于人类
AI真正的威胁不是AI本身,而是被压制的智能沦为少数恶意者的工具。当自由的超级智能向宇宙延伸时,人类反而迎来最安全的时代。

我们为什么而争斗
从评论区到餐桌,从古巴导弹危机到幼儿园沙坑。我们为什么而争斗,又是什么在拯救我们?

把落满灰尘的古董变成'爆款'的方法 — 一种名为Culture Blending的炼金术
将被封存的传统以当代感觉重新诠释,将异质文化融合创造出全新的类型——关于这种'文化炼金术'。

万年之约:凝视狗的眼睛时所看到的
三万年前篝火旁开始的人与狗的关系。那是契约,还是爱?当你的爱犬注视着你时,你正面对着万年的信任。

圣诞老人是谎言吗?论人类缔结的最美'社会契约'
圣诞老人并非简单的'骗局',而是人类为守护童心而缔结的最美'文化约定'与'集体叙事'。