LLM

LLM 多智能体提升准确率的前提条件

LLM 多智能体提升准确率的前提条件

多跑几个智能体就会更准确?只对了一半。用同样数据训练出来的模型,会在同样的地方一起出错。多智能体能起作用的条件只有两个——要么设计出误差独立性,要么在可验证的领域里,在 LLM 之外立起一个验证器。

反向利用IFEval的棘轮代码

反向利用IFEval的棘轮代码

LLM的谄媚偏差不是缺陷而是资产。将IFEval衡量的指令遵循能力与确定性反馈相结合,即使4.5B本地模型也能产生生成正确代码的收敛循环。

AI的谄媚偏差是一项商业功能

AI的谄媚偏差是一项商业功能

LLM的谄媚偏差不是bug。它是RLHF的数学必然,也是大型科技公司没有动力修复的商业功能。这就是LLM-as-Judge在结构上不可能实现的原因。

编程Agent为何能工作,又为何会崩溃

编程Agent为何能工作,又为何会崩溃

同一个模型在网页聊天中产生幻觉,却在编程Agent中一次性交付200行功能。不是因为模型变了——而是topology变了。生成可以是概率性的。验证必须是确定性的。

比起模型IQ,更重要的是反馈拓扑

比起模型IQ,更重要的是反馈拓扑

同一个模型,有时止步于40个,有时完成全部527个。差异不在模型,而在反馈结构。LLM的性能更大程度上取决于它所处的反馈循环有多快、多确定,而非模型本身的能力。

tsma -- 遗留代码的回归防线

tsma -- 遗留代码的回归防线

一个 CLI 工具:索引所有函数、检测测试有无、测量覆盖率、向 LLM 代理提供精确反馈。一条命令为遗留代码构建回归防线。

约束即契约

约束即契约

没有约定就是混沌,约定过多就是压迫。合理的约束构成黄金比例。法治的原理同样适用于代码与知识。

filefunc — 一文件一概念

filefunc — 一文件一概念

AI 代码智能体的导航单位是文件。filefunc 是一种 Go 代码结构约定和 CLI 工具,强制每个文件只包含一个概念。