Reins Engineering

Hurl 阻止 Vibe Coding 的 Logic Drift

Hurl 阻止 Vibe Coding 的 Logic Drift

Vibe coding 在三个月内崩溃为 logic drift。CMU、METR、DORA 和 Amazon 已经证明了这一点。用 Hurl 以 plain text 声明 API 契约,再用 ratchet 锁定——无需限制 AI 的自由,即可从结构上抑制 drift。

反向利用IFEval的棘轮代码

反向利用IFEval的棘轮代码

LLM的谄媚偏差不是缺陷,而是资产。将IFEval衡量的指令遵循能力与确定性反馈相结合,即使4.5B本地模型也能生成准确代码的收敛循环便由此诞生。

yongol — AI 编程 SaaS 的龙骨

yongol — AI 编程 SaaS 的龙骨

氛围编程在200个端点处崩溃,因为AI无法区分决策与实现细节。yongol将AI的工作对象从代码转移到10种声明式规范,并在编译前强制执行跨层一致性。Harness with reins。

AI的谄媚偏差是一项商业功能

AI的谄媚偏差是一项商业功能

LLM的谄媚偏差不是bug,而是RLHF的数学必然,也是大厂没有动力去修复的商业功能。这就是LLM-as-Judge在结构上不可能实现的原因。

编程 Agent 为何能工作,又为何会崩溃

编程 Agent 为何能工作,又为何会崩溃

同一个模型在网页聊天中 hallucinate,在编程 Agent 中却能正常工作。不是模型变了,而是 topology 变了。生成可以是概率性的,验证必须是确定性的。

Ratchet Pattern -- 让 Agent 做到底的方法

Ratchet Pattern -- 让 Agent 做到底的方法

让 AI Agent 为 527 个函数编写测试,它在第 40 个时宣布'完成了'。Ratchet Pattern 通过将完成判定交给机械式 verifier,迫使 Agent 走到终点。

比起模型IQ,更重要的是反馈拓扑

比起模型IQ,更重要的是反馈拓扑

同一个模型,有时止步于40个,有时完成全部527个。差异不在模型,而在反馈结构。LLM的性能更大程度上取决于它所处的反馈循环有多快、多确定,而非模型本身的能力。

tsma -- 遗留代码的回归防线

tsma -- 遗留代码的回归防线

一个 CLI 工具:索引所有函数、检测测试有无、测量覆盖率、向 LLM 代理提供精确反馈。一条命令为遗留代码构建回归防线。

filefunc — 一个文件,一个概念

filefunc — 一个文件,一个概念

AI 代码 agent 的探索单元是文件。filefunc 是一种强制「一个文件,一个概念」的 Go 代码结构规范,同时也是一个 CLI 工具。