Reins Engineering

reins 的『回合（turn）』是什么

解剖 reins 的最小执行单位——回合（turn）。未被记录的就不是回合——从这一条定义出发，驱动器无关性、重启韧性、可审计性全部随之而来。与 2026 年 6 月的 Loop Engineering 讨论对照，可以看到回合如何把那些建议变成结构。

2026-07-07

系统让天才更加闪耀

没有结构的天才会迷失方向，只有结构则趋于平庸。当天才与结构相乘，才能发挥真正的价值。ZenFlow 基准测试（Claude Sonnet，32 个端点，43 分钟）以及 B-17、Toyota、WHO 手术清单的历史证明，都指向同一原理。

2026-06-25

abloq —— 智能体运营的博客，验证由机器锁定

把博客交给智能体，文章是出得来的。问题在于它不可信——它会伪造出处，会给压根没改的文章抬高 lastmod，会动你没让它碰的文件。如果人要从头到尾全部审一遍，那委托还有什么意义。abloq 的答案是分工：生成是概率性的，验证是确定性的。人写的只有一张洞见规范（insight.yaml），撰稿、翻译、更新、补证由智能体以 Quest 代行，而质量由从一张 blog.yaml 派生出的确定性门来担保。锁定的 PASS 不可逆——智能体可以一次性用完，进展却会累积。

2026-06-11

你的智能体循环为何会发散

随着 Loop Engineering 越来越普及，人们撞上了同一堵墙 —— 循环无法收敛，反而发散。无限空转、漂移、奖励黑客，这三张面孔的根源只有一个：把生成者本身又塞回了循环的裁决槽位。但发散反倒算运气好，因为它看得见。真正可怕的是悄悄假收敛的循环。处方只有一条 —— 把锁定「完成」的权限交给确定性的 gate，而不是 LLM。

2026-06-11

生产流量即规范

遗留代码没有文档，也没有测试。可它此刻正在运行。一个月记录完善的日志就是规范——用生产流量捕获当前行为，生成 Hurl 集成测试，你便能在一行代码都不读的情况下，固定遗留系统的功能，为重构铺下安全网。

2026-06-06

烧掉一座城，只为换来一个答案

一个万亿参数的模型，为了吐出一个答案，烧掉相当于一座城市的电与水。我觉得这疯了。在四处寻找答案的途中我才明白：大家都想修掉的那个缺陷，LLM 的阿谀，恰恰就是答案。喂给它 fact，阿谀就变成了准确率。这篇文章，讲的是我为什么开始做 Reins。

2026-06-06

reins —— Quest CLI 只留下领域，ratchet 交给框架

how-make-quest 教你亲手打造 Quest CLI。可是当你造第二个 CLI 时，又得重写同样的 ratchet、同样的 scan/next/submit、同样的汇总。reins 把这些不变的部分抽成框架——ratchet、命令骨架、汇总、export 由 reins 供给，你只实现领域的门（gate.Definition 的 4 个方法）。门是 cheese 防御规则的目录，而 toulmin defeat 图会把『为什么输了、改什么就能赢』的攻略手册返还给智能体。

2026-06-05

赋予你缰绳的工具，自身却无缰可言 — harness 与 reins 的边界

"Reins Engineering，归根结底不就是 harness engineering 吗？" 两者并不对立 — 它们是同一套马具的不同部件。但终究是不同的部件。即便是世界顶级的编程智能体，也没有为自己的代码套上缰绳。因为 reins 不是拥有的东西，而是主动施加的规律。

2026-06-04

如何制作 Quest CLI —— 亲手打造让机器判定完成的工具

AI 会说"已经全部完成了"。可实际上并没有结束。本文教你亲手打造解决这个问题的工具——Quest CLI。从原理（为什么）到 cobra 命令骨架（怎么做），仅凭这一篇文章，就能让智能体造出一个 Go 编写的 Quest CLI。huma 就是实战示例。

2026-06-03

LLM 多智能体提升准确率的前提条件

多跑几个智能体就会更准确？只对了一半。用同样数据训练出来的模型，会在同样的地方一起出错。多智能体能起作用的条件只有两个——要么设计出误差独立性，要么在可验证的领域里，在 LLM 之外立起一个验证器。

2026-06-02

为什么你的智能体永不停止

面对“智能体已运行 24 小时”的炫耀，浮现的感觉不是赞叹而是疑问——为什么还没结束？代码不是搜索问题，而是约束满足问题。能停下来的系统，才是健康的系统。

2026-06-01

论美

美的事物中有70%是数学。秩序由机器确定性地锁定，只有30%的复杂性交由人来决定。Reins Engineering 不是一款 AI 编程工具——它是锁定秩序、把复杂性留给人的原理。

2026-05-31

「完成」由谁来定义 — 游戏早了40年解决的问题

当你用五张照片定义租客退租确认的那一刻，它就变成了一个游戏任务。将「完成」定义为机械可验证的条件而非执行者的声明 — 这是游戏早了40年解决的问题，也是让AI代理真正把事情做对的方法。

2026-05-30

第11课. 如何拯救崩溃的 Vibe Coding 应用

用 vibe coding 做的应用崩了。不需要重建。诊断它、锁定它、一步一步地走出来。

2026-05-28

Supabase 是 Vibe Coding 的陷阱

AI 推荐 Supabase 的原因不是技术优越性，而是训练数据中充斥着大量教程。一旦业务逻辑进入黑盒，智能体就无法追踪。进去只需 30 秒，出来却要 3 个月。

2026-05-28

构建Agent可操作的系统

企业 IT预算的60~80%用于守护锁死的legacy。因为打不开。AI泡沫的真正含义不是模型变聪明——而是企业锁死的记忆正在变得可达。

2026-05-27

huma -- 一个端点都不漏的棘轮

让AI代理测试42个端点，它在第15个就宣布完成了。huma将端点列表变成棘轮会话，让代理一个都漏不了。scan、next、write、verify。四个命令，零配置。

2026-05-26

codistill -- 从现有代码中蒸馏SSOT

用yongol必须从头写SSOT吗？不。codistill从8种语言、16个Web框架的现有代码中自动提取OpenAPI、DDL和sqlc查询。不是基础施工，而是抗震加固。

2026-05-26

Agent Operable Codebase

人类读起来好的代码和AI Agent操作起来好的代码是一回事吗？不是。一个文件里有20个函数时，Agent性能下降30~85%。办公室要变成工厂。

2026-05-25

第10课. 数据的法则 — Agent Operable Data

代码错了测试会抓住。数据错了没人知道。模式就是我制定的法律。

2026-05-24

第9课. 代码之外的自动化 — Agent Operable System

仅代码agent-operable就够了吗？构建、部署、监控——智能体运营整个系统的架构。

2026-05-24

第8课. 智能体的工厂 — Agent Operable Codebase

一个文件20个函数→智能体性能下降30-85%。用filefunc拆分，用tsma测试。

2026-05-24

第7课. 翻转谄媚 — 提示词与验证器的平衡

给意见就谄媚，给事实就修正。如何将谄媚偏差从缺陷变为资产。

2026-05-24

第6课. 通过就锁定 — Ratchet Pattern原理与批量应用

AI宣布'全部完成'。实际上是40/527。Ratchet Pattern将完成判定交给机器。

2026-05-24

第5课. 有缰绳的AI — Reins Engineering概论

缰绳工程是围栏。Reins Engineering是缰绳。不要换模型——添加契约。

2026-05-24

第4课. 将决策移出代码 — yongol与声明式全栈控制

AI无法区分代码中混杂的决策和细节——这是漂移的根本原因。yongol将决策分离为10个声明式规范，用287条规则捕获跨层矛盾。

2026-05-24

第3课. 不会崩坏的应用 — Hurl、Git、CI/CD

用Hurl声明API契约，用Git创建存档点，用CI/CD自动验证。三者结合就成了棘轮——只向前转、不会倒退的齿轮。

2026-05-24

第2课. 如何不信任AI — 氛围编程的局限与原因

AI在添加新功能时悄悄修改现有功能的漂移现象、58%的谄媚偏差、97%连乘5次变成86%的数学。为什么在5个功能时崩溃。

2026-05-24

第1课. 如何指挥AI — 氛围编程核心要点

从安装Claude Code到使用CLAUDE.md管理上下文。不懂代码的人如何指挥AI。

2026-05-24

第0课. 安装Claude Code — 你用的可能根本不是Claude Code

YouTube上所谓的'Claude Code'，有一半根本不是Claude Code。就算用同一个模型，Agent不同结果就天差地别。这里把好关。

2026-05-24

Reins Engineering — 给AI装上缰绳

Harness engineering是围栏，能防止代理越界，但无法确保它到达目的地。Reins Engineering是缰绳——用确定性契约引导方向，用棘轮锁定行为，将决策与实现分离。

2026-05-23

Hurl阻止Vibe Coding的漂移

Vibe coding在3个月内因逻辑漂移而崩溃。CMU、METR、DORA、Amazon的案例证明了这一点。用Hurl将API契约声明为纯文本并用棘轮锁定，在不限制AI自由的前提下结构性地抑制漂移。

2026-05-22

反向利用IFEval的棘轮代码

LLM的谄媚偏差不是缺陷而是资产。将IFEval衡量的指令遵循能力与确定性反馈相结合，即使4.5B本地模型也能产生生成正确代码的收敛循环。

2026-05-20

yongol — AI 编程 SaaS 的龙骨

氛围编程在200个端点处崩溃，因为AI无法区分决策与实现细节。yongol将AI的工作对象从代码转移到10种声明式规范，并在编译前强制执行跨层一致性。Harness with reins。

2026-05-18

AI的谄媚偏差是一项商业功能

LLM的谄媚偏差不是bug。它是RLHF的数学必然，也是大型科技公司没有动力修复的商业功能。这就是LLM-as-Judge在结构上不可能实现的原因。

2026-05-18

编程Agent为何能工作，又为何会崩溃

同一个模型在网页聊天中产生幻觉，却在编程Agent中一次性交付200行功能。不是因为模型变了——而是topology变了。生成可以是概率性的。验证必须是确定性的。

2026-05-16

Ratchet Pattern — 让 Agent 做到底的方法

让 AI Agent 为 527 个函数编写测试，它在第 40 个时宣布'完成了'。Ratchet Pattern 通过将完成判定交给机械式 verifier，迫使 Agent 走到终点。

2026-05-15

比起模型IQ，更重要的是反馈拓扑

同一个模型，有时止步于40个，有时完成全部527个。差异不在模型，而在反馈结构。LLM的性能更大程度上取决于它所处的反馈循环有多快、多确定，而非模型本身的能力。

2026-05-14

tsma -- 遗留代码的回归防线

一个 CLI 工具：索引所有函数、检测测试有无、测量覆盖率、向 LLM 代理提供精确反馈。一条命令为遗留代码构建回归防线。

2026-05-14

filefunc — 一文件一概念

AI 代码智能体的导航单位是文件。filefunc 是一种 Go 代码结构约定和 CLI 工具，强制每个文件只包含一个概念。

2026-03-16