LLM

LLM 多智能体提升准确率的前提条件

多跑几个智能体就会更准确？只对了一半。用同样数据训练出来的模型，会在同样的地方一起出错。多智能体能起作用的条件只有两个——要么设计出误差独立性，要么在可验证的领域里，在 LLM 之外立起一个验证器。

LLM的谄媚偏差不是缺陷而是资产。将IFEval衡量的指令遵循能力与确定性反馈相结合，即使4.5B本地模型也能产生生成正确代码的收敛循环。

LLM的谄媚偏差不是bug。它是RLHF的数学必然，也是大型科技公司没有动力修复的商业功能。这就是LLM-as-Judge在结构上不可能实现的原因。

同一个模型在网页聊天中产生幻觉，却在编程Agent中一次性交付200行功能。不是因为模型变了——而是topology变了。生成可以是概率性的。验证必须是确定性的。

同一个模型，有时止步于40个，有时完成全部527个。差异不在模型，而在反馈结构。LLM的性能更大程度上取决于它所处的反馈循环有多快、多确定，而非模型本身的能力。

一个 CLI 工具：索引所有函数、检测测试有无、测量覆盖率、向 LLM 代理提供精确反馈。一条命令为遗留代码构建回归防线。

没有约定就是混沌，约定过多就是压迫。合理的约束构成黄金比例。法治的原理同样适用于代码与知识。

AI 代码智能体的导航单位是文件。filefunc 是一种 Go 代码结构约定和 CLI 工具，强制每个文件只包含一个概念。