LLM 多智能体提升准确率的前提条件

LLM 多智能体提升准确率的前提条件 Image: AI generated

问题

人们有一种直觉：“多跑几个智能体就会更准确”。这只对了一半。

需要精确瞄准的，并不是多智能体本身，而是没有独立性却在投票的多智能体。用同一个模型、同样的数据、同样的对齐造出 N 个智能体去做多数表决——并不会更准确。它们会一起出错。

LLM 集成情感分析的实测：即便加入更大、更准确的模型，收益也微乎其微。因为孔多塞定理所预设的独立性已经被打破了（arXiv:2409.00094）。
多智能体辩论（MAD）：即使让它们辩论，也无法稳定地胜过单个智能体的 self-consistency（ICML 2024, arXiv:2311.17371）。
我个人的轶事性观察（样本量 1，无对照）：在 ZenFlow 任务中，我用 8 个并发智能体跑 Grok Build，结果在 10 个端点中有 3 个卡住了，没能通过 validate。这只是轶事，别像上面那两项研究那样给它太多分量。

多数表决不是魔法。孔多塞陪审团定理在 200 年前就把前提条件写得明明白白。而且**只要满足那个前提，多智能体就真的会起作用。**本文要谈的，就是那个前提是什么，以及如何去满足它。

孔多塞的两个前提

1785 年，孔多塞用公式钉死了多数表决收敛于真理的条件。

每个投票者的准确率 > 50%
投票者之间的误差相互独立

（严格来说还有第三个：所有人准确率相同的均匀性前提。为了简化，这里先按下不表。）

第 2 条是核心。用同样的训练数据、同样的架构、同样的 RLHF 对齐出来的模型，会在同样的地方出错。一投票，“一起错的那个答案"就成了多数。

这不只是直觉。一项分析了 350 多个 LLM 的研究报告称，当两个模型同时出错时，有 60% 的概率会收敛到完全相同的错误答案（ICML 2025, arXiv:2506.07962）。同一项研究还观察到了一个更大的悖论——**模型越大、越准确，误差相关性反而越高。**即使架构不同也是如此。（这是单一的大规模分析，广泛的复现尚未完成。但至少方向上，正如孔多塞所预言的那样。）

轴 1 — 确保了独立性，多智能体就会起作用

把话说清楚。错的不是多智能体本身。错的是没有独立性的投票。只要满足孔多塞的第 2 条前提——让智能体们的误差不相关——多数表决就会如约把准确率拉上去。制造独立性的路有两条。

(甲) 把问题切开——最有力。

不要给智能体们同一个问题让它们投票，而要给它们不同的子问题。输入不同，误差就在结构上独立——哪怕是同一个模型。读不同文档的两个智能体不可能在同一个地方出错。因为它们看的是不同的地方。

Anthropic 的多智能体研究系统相比单智能体报告出90.2% 的提升，正是这个原理。主导智能体把问题切开，分配给并行的子智能体，再把各自独立探索的结果合并起来。它不需要验证器。因为分解让独立性变成了免费的。

但有个条件。**问题必须是可分解的。**对于子任务相互依赖、需要不断协调的工作——比如让多人同时修改同一块代码——并行子智能体反而会冲突。上下文被切碎，它们会做出彼此矛盾的决策（Cognition, “Don’t Build Multi-Agents”）。分解的独立性只在子问题真正独立时才是免费的。

(乙) 让模型异质化——能起作用，但有天花板。

即便是同一个问题，让不同的模型（GPT、Claude、Gemini）去解，权重不同，误差相关性就会下降。多智能体辩论也只有在混入异质模型时才终于胜过单一基线（arXiv:2502.08788）——我并不反驳这一点。关键在于重要的不是个体准确率，而是相关性。有一个信息论结果表明：即便在为集成挑选模型时，也该挑最不相关的组合，而不是最强的模型——弱但多样，就能胜过最强的单一模型（arXiv:2602.08003）。只不过这个旋钮的天花板很低。互联网语料是重叠的，而且如前所见，模型越大又会一起出错（arXiv:2506.07962）。多样性能减小相关性，却无法把它降到 0。

第三，在同一个模型内部打散推理路径的 self-consistency，也通过让表层误差不相关而带来收益（GSM8K +17.9pp, arXiv:2203.11171）。但这种收益会在模型系统性出错的地方——同样的数据刻下的同样的偏差——面前停下。路径再怎么多样化，模型不知道某件事的方式只有一种。

独立性来源	工作原理	局限
问题分解（不同输入）	输入不同，误差在结构上独立	仅限可分解的问题。对依赖性强、需协调的任务有反效果
异质模型（GPT+Claude+Gemini）	权重不同则相关性↓	语料重叠 + 模型越大相关性↑
推理路径多样化（self-consistency）	在一个模型内采样路径后多数表决	在系统性误差面前停下

轴 1 的结论：只要把独立性设计出来，多智能体就会起作用。而最确定的独立性，不是去找别的模型，而是来自把问题切成相互独立的碎片。

轴 2 — 验证器绕开了独立性

第三个旋钮种类不同。轴 1 是通过减小误差相关性来救活投票。验证器则是绕开相关性——即便智能体们一起出错，一个与误差无关的外部标准也会挡住通过。这不是投票，而是门（gate）。所以即便在无法确保独立性的地方，只要是可验证的领域，它就能起作用。

这个诊断不是我独有的。“Consensus is Not Verification”（arXiv:2603.06612）先一步钉死了同样的结论——基于合意的聚合相比单一样本没有一致的收益，反而放大共享的误解；推理时（inference-time）缩放在可验证的领域（数学）里有效，但在不可验证的领域里失败。合意之所以在数学里管用，不是因为合意是真理信号，而是因为验证器过滤掉了候选。我接受那个诊断，并往前再走一步——走向处方。独立性最强的来源是分解；独立性与验证不是竞争而是互补；确定性验证器与 LLM 判定者分道扬镳的地方有三处（见下文）。

可业界连这个验证都交给了 LLM——LLM-as-Judge。

先公平地开个头。LLM 判定者常常运作良好。在 MT-Bench 上，GPT-4 判定者与人类偏好的一致率超过 80%，这与人与人之间的一致率处于同一水平（arXiv:2306.05685）。如果只是笼统的偏好评估，LLM 判定者是堪用的。问题在于它在哪里崩溃。

当判定者与生成者共享同一个陷阱时，它就崩溃。判定 LLM 会把对自己熟悉的（perplexity 低的）输出评得比人类更高（self-preference bias, NeurIPS 2024 WS, arXiv:2410.21819）。判定者若与生成者共享同一分布，就会因为"熟悉"而放行同一个模型造出的幻觉。80% 的一致率之所以让人安慰不起来，是因为出错的那 20% 恰恰扎堆在生成者也出错的地方——问题不是平均准确率，而是误差相关性。判定还会被像候选的呈现位置这样无关的变量所左右，而非答案本身（position bias, arXiv:2406.07791）。

再补一个辅助证据。LLM 判定甚至在硬件层面也会动摇。同样的输入、T=0 greedy decoding，也会因为浮点的非结合性和动态批处理而随 GPU 配置不同得出不同结果——在 BF16 下准确率最多变化了 9pp（arXiv:2506.09501）。这是可复现性问题而非有效性问题，所以我不把它当作主论据。只是说，让一个连同样的问题都无法保证给出同样答案的东西坐上最终审判席，总归让人不放心。

所以有一个相反的方向。**弱生成者 + 强验证器。**弱模型只要配上同一个验证器，也能逼近强模型，而且弱模型的错误反而更容易被检出（arXiv:2509.17995）。可以把多个弱验证者加权组合成一个强验证者（Weaver, arXiv:2506.18203），也可以用 formal verifier 的反馈来精炼 LLM 的输出以保证一致性（AlphaVerus, arXiv:2412.06176）。这不是边缘论调——以可验证奖励来训练的推理模型和编码智能体，正是当下发展最快的领域，而 Jason Wei 把这一点总结为 verifier’s law：AI 变强的程度，与任务的可验证性成正比。

这里必须诚实。**验证器不是魔法神谕。**测试可能遗漏，规范可能出错。更尖锐地说——如果验证器是由 LLM 编写的，那我刚才对 LLM-as-Judge 发出的批评就会原样复活。生成者与验证者若是同一个模型，那么在同一个地方出错的测试，就会放行同一个地方出错的代码。误差相关性只是换了个位置搬到验证层，并没有消失。

那么如何阻止这种复活。是把验证器的可靠性从生成者之外提上来。三件事要一起走。

**人工审查。**让人对验证标准（规范、测试、属性）审查一次并固定下来。即便由 LLM 写初稿，通过标准也由处在生成者分布之外的人来敲定。成本只有一次，而一旦固定下来的标准可以无限复用——这正是它与每次生成都要重新判断的 LLM-as-Judge 决定性的不同之处。
**归约到数学与逻辑。**尽可能把验证迁移到机械上可判定的形式——类型检查、不变式（invariant）、形式证明、数学属性。这里没有给 LLM 的"判断"留位置。真/假不由模型的意见决定，而由规则裁定。
**反复测试。**验证器的错误是可复现的，因此可以累积改进。用回归测试和属性测试（property-based testing）拓宽覆盖率，验证器某一次漏掉的窟窿就会被测试钉死成标本，再也不会从同一个地方漏出去。LLM 判定者面对同样的输入也会动摇，这种累积是不可能的。

这三者让验证器成为与生成者偏差独立的标准。在验证层也切断误差相关性的方法，就是把验证器钉死在模型之外的——人、数学、测试套件这样的外部。

那么确定性验证器的差别究竟在哪里。不在于无误差。而在于三点。第一，验证标准位于生成者的权重之外——无论是人来写还是由别的流程造出，都可以立起一个与生成者偏差独立的标准（LLM 判定者在结构上做不到）。第二，验证器的错误不是自信满满的幻觉，而是以可检出、可复现的失败暴露出来——对同样的输入给出同样的判定，所以可以被调试、被累积改进。第三，信任被迁移到一个小而可审计的表面（规范、测试），人审查一次就能无限复用。不是验证器保证准确率，而是验证器的质量就成了准确率的上限——上限取决于此，而非生成者的大小。

核心洞见

多智能体的准确率公式：

准确率 = f(个体准确率, 误差独立性, 验证机制)

业界只在第一项（更大的模型）上投资。第二项（独立性）不去设计，第三项（验证）则交给 LLM。而只在第一项上投资的策略会撞上一个悖论——模型越大误差相关性越高，所以你把越聪明的智能体聚得越多，它们就越和睦地一起出错。

第二项和第三项才是真正的旋钮。而且二者并不竞争。独立性（轴 1）救活投票，验证器（轴 2）斩断投票够不着的地方。两者兼备时最强。

Anthropic 研究系统：把轴 1 的分解推到极致——切开问题独立并行探索。没有验证器，提升 90.2%。
SciencePedia（中国，2026）：多个独立的 solver 各自求解（轴 1），只保留模型间答案达成合意的那些（cross-model consensus, arXiv:2510.26854）。不过最终过滤器是"模型合意”，所以轴 2 只抓住了一半——合意不是确定性验证。这正是它只在数学、逻辑这类可验证领域中才可信赖的原因。
同一模型 8 智能体失败的原因：两轴皆缺。独立性为零，验证循环为零。8 个在同一个地方一起卡住。
yongol 用 Haiku 也能跑的原因：轴 2 的直接实现。即便模型准确率低，确定性验证器也在每一步过滤——只要验证器的质量撑得住。

民主的类比

正如民主若沦为看了同样新闻的选民的多数表决，就会变成愚民政治（中愚政治）；用同样数据训练的 LLM 的多数表决，就是幻觉的合意。人头数造不出真理。独立的人头数才造得出。而在人头数够不着的地方，是人头数之外的标准在造。

与进化的关联

同样的直觉在学习算法里也读得出来。反向传播的 gradient 方向是相关的，进化的突变则各自独立地分散开。有报告称，完全不使用 gradient 的遗传算法在深度强化学习中探索了与 gradient 法不同的解空间（Deep Neuroevolution, arXiv:1712.06567）。独立的探索触及相关探索去不到的地方——在集成中看到的原理，在优化里也是同样的模样。只不过"因为独立所以更好"目前还是事后解读——把它留作假设而非证明。

结论

多智能体不是"多了就准确"。攻击对象不是多智能体，而是没有独立性的投票。把同一个模型聚 N 个去多数表决，就是在养一个一起出错的合唱团。

处方有两个，且两个都是真的。第一，设计独立性——把问题切成相互独立的碎片（最确定的方式），同一个模型也能让多智能体起作用。第二，如果是可验证的领域，就在 LLM 之外立起验证器——它与独立性无关地把准确率的上限提上去。

诚实地把范围钉死。验证器轴（轴 2）只是在可验证领域里才是答案——代码、数学、形式规范这类能用外部标准裁出正确答案的地方。在开放式生成、摘要、咨询、创作、战略判断这类没有那种标准的领域，轴 1，也就是独立性设计，是唯一剩下的旋钮。被锁住的旋钮不是模型大小——而是误差的独立性，以及在可能的地方立起的外部验证器。

（利益冲突声明：我做了一个以确定性验证器为基石（keystone）的工具 yongol。所以我会偏向验证器这一轴。请连同这层偏见一起来读上面的论证——如果脊椎错了，工具也就错了。）

参考

孔多塞与集成理论

孔多塞陪审团定理（1785）——多数表决收敛的两个前提：个体准确率 >50%，误差独立
Krogh & Vedelsby, Neural Network Ensembles, Cross Validation, and Active Learning (NeurIPS 1994) —— ambiguity 分解
Wood et al., A Unified Theory of Diversity in Ensemble Learning (JMLR 2023, arXiv:2301.03962) —— bias-variance-diversity 分解

LLM 误差相关性 / 合意的局限

Kim et al., Correlated Errors in Large Language Models (ICML 2025, arXiv:2506.07962) —— 两个模型同时出错时 60% 给出相同错误答案，模型越大相关性↑
Lefort et al., Examining Independence in Ensemble Sentiment Analysis … Condorcet Jury Theorem (arXiv:2409.00094) —— 孔多塞独立性假设在 LLM 上被打破
Denisov-Blanch et al., Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness (2026, arXiv:2603.06612) —— 合意聚合放大共享的误解，仅在可验证领域中推理时缩放才有效（与本文的诊断一致——本文在处方上做出区别）

多智能体：独立性与分解

Cemri et al., Why Do Multi-Agent LLM Systems Fail? (UC Berkeley, 2025, arXiv:2503.13657) —— 分析 7 个框架 1,600+ 执行 trace。将 14 种失败模式归为 3 类：系统设计、智能体间对齐失败、验证（task verification）
Smit et al., Should we be going MAD? (ICML 2024, arXiv:2311.17371) —— 辩论无法稳定胜过简单基线
Zhang et al., Stop Overvaluing Multi-Agent Debate (arXiv:2502.08788) —— 异质性是解毒剂（恢复独立性就能起作用）
Du et al., Improving Factuality and Reasoning through Multiagent Debate (ICML 2024, arXiv:2305.14325) —— MAD 鼻祖的正面主张
Wang et al., Self-Consistency Improves Chain of Thought Reasoning (ICLR 2023, arXiv:2203.11171) —— 路径多样化的收益
Turkmen et al., Don’t Always Pick the Highest-Performing Model: An Information Theoretic View of LLM Ensemble Selection (2026, arXiv:2602.08003) —— 集成的选择标准不是个体性能而是相关性↓（互信息最大化）。弱但多样就能赢

LLM-as-Judge 可靠性

Zheng et al., Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena (NeurIPS 2023, arXiv:2306.05685) —— GPT-4 判定者与人类一致率 80%+（正面证据）
Wataoka et al., Self-Preference Bias in LLM-as-a-Judge (NeurIPS 2024 WS, arXiv:2410.21819)
Shi et al., Judging the Judges: Position Bias in LLM-as-a-Judge (arXiv:2406.07791)
Numerical Sources of Nondeterminism in LLM Inference (arXiv:2506.09501) —— 即便 T=0 输出也会动摇

弱生成者 + 强验证器

Saad-Falcon et al., Shrinking the Generation-Verification Gap with Weak Verifiers (Weaver, arXiv:2506.18203)
Aggarwal et al., AlphaVerus: Formally Verified Code Generation (arXiv:2412.06176)
Variation in Verification: Understanding Verification Dynamics in LLMs (arXiv:2509.17995)

可验证生成的案例

SciencePedia (DP Technology / DeepModeling, 2026) —— Inverse Knowledge Search over Verifiable Reasoning (arXiv:2510.26854)。独立 solver + cross-model consensus 过滤

进化 vs gradient