LLMマルチエージェントの精度向上に必要な前提条件

LLMマルチエージェントの精度向上に必要な前提条件 Image: AI generated

問題

「エージェントを複数走らせれば正確になる」という直観がある。半分しか正しくない。

正確に狙うべきはマルチエージェントそのものではなく、独立性なしに投票するマルチエージェントだ。同じモデル、同じデータ、同じアラインメントで作ったエージェントをN個走らせて多数決しても——より正確にはならない。一緒に間違える。

LLM ensembleによる感情分析の実測:より大きく正確なモデルを追加しても利得はわずかだった。Condorcetの定理が前提とした独立性が崩れていたからだ(arXiv:2409.00094)。
マルチエージェント討論(MAD):討論を加えても、単一エージェントのself-consistencyを安定して上回ることはできない(ICML 2024, arXiv:2311.17371)。
私の逸話的観察(標本1、統制なし):ZenFlowの課題でGrok Buildを8個の同時エージェントとして走らせたところ、10個のエンドポイントのうち3個で止まり、validateを通過できなかった。逸話にすぎないので、上の二つの研究ほど重みを置かないでおこう。

多数決は魔法ではない。Condorcetの陪審定理が200年前に前提条件を明示している。そしてその前提を満たせば、マルチエージェントは実際に機能する。 この文章は、その前提が何であり、どう満たすかについてのものだ。

Condorcetの二つの前提

1785年、Condorcetは多数決が真実に収束する条件を式に刻んだ。

各投票者の精度 > 50%
投票者間の誤りが独立

(厳密には三つ目、全員が同じ精度であるという均一性の前提もある。単純化のため畳んでおく。)

2番が核心だ。同じ学習データ、同じアーキテクチャ、同じRLHFでアラインされたモデルは、同じ場所で間違える。投票すれば「一緒に間違えた答え」が多数になる。

これは直観だけではない。350以上のLLMを分析したある研究は、二つのモデルが同時に間違えるとき、60%の確率でまったく同じ誤答に収束すると報告している(ICML 2025, arXiv:2506.07962)。同じ研究でさらに大きな逆説も観察された——モデルが大きく正確であるほど、誤りの相関が高くなった。 アーキテクチャが異なってもそうだった。(単一の大規模分析であり、広範な再現はまだだ。それでも方向だけはCondorcetが予告したそのままだ。)

相関した誤りの数学

誤りが独立なら、ensembleは誤答を削る。相関していれば、削るものがない。

独立のとき:P(両方とも間違い) = 0.1 × 0.1 = 0.01
完全相関のとき:P(両方とも間違い) ≈ 0.1 (片方が間違えれば、もう片方も間違える)

この直観は30年前の定理に根ざしている。Krogh & Vedelsbyのambiguity分解(NeurIPS 1994):ensemble誤差 = 平均メンバー誤差 − ensembleの多様性。メンバーの誤りが相関するほど多様性の項が0に収束し、モデルをいくら足しても利得が消える。2023年JMLRの統合理論はこれを一般化した——多様性は別個のつまみではなく、bias-variance分解の中に隠れている次元だ(arXiv:2301.03962)。

整理すると:

ensembleが精度を高める条件:誤りの相関が低いほど利得が大きい(負の相関で最大)。
ensembleの利得が0に収束する条件:誤りの相関 → 1 (同じデータ、同じバイアス)。

投票の形式も重要だ。多数決(majority)は独立であればCondorcet通りに精度を引き上げる。しかし「全員が通過させなければならない」という合意(unanimity、ANDゲート)で束ねると、精度は積で崩れる——分類器の精度が0.977で、n個を全員一致で束ねると0.977ⁿ。ゲートを誤って設計すると、より多くのエージェントがより低い精度を生む。

ここまでが診断だ。ここから処方は二つの道に分かれる——誤りの相関を減らすか(軸1)、迂回するか(軸2)。

軸1 — 独立性を確保すればマルチエージェントは機能する

はっきりさせよう。マルチエージェントが間違っているのではない。独立性なき投票が間違っているのだ。Condorcetの2番の前提を満たせば——エージェントたちの誤りを無相関にすれば——多数決は約束通りに精度を引き上げる。独立性を作る道は二つだ。

(ア) 問題を分割する——最も強力だ。

エージェントたちに同じ問題を与えて投票させるのではなく、別のサブ問題を与えよ。入力が違えば誤りは構造的に独立になる——同じモデルであっても。別の文書を読む二つのエージェントは、同じ場所で間違えようがない。互いに別の場所を見ているのだから。

Anthropicのマルチエージェント・リサーチシステムが、単一エージェント比で90.2%の向上を報告したのは、まさにこの原理だ。リードエージェントが問題を分割して並列のサブエージェントに分配し、各自が独立に探索した結果を統合する。verifierは必要なかった。分解が独立性を無料で作ったからだ。

ただし条件がある。分解可能な問題でなければならない。 サブ作業が互いに依存し、絶えず調整しなければならない作業——一塊のコードを複数で同時に直すようなもの——では、並列サブエージェントはむしろ衝突する。コンテキストが分断され、互いに矛盾した決定を下す(Cognition, “Don’t Build Multi-Agents”)。分解の独立性は、サブ問題が本当に独立であるときにだけ無料だ。

(イ) モデルを異質化する——機能するが天井がある。

同じ問題でも、異なるモデル(GPT・Claude・Gemini)に解かせれば重みが違うので、誤りの相関が下がる。マルチエージェント討論も、異質なモデルを混ぜてはじめて単一ベースラインを上回る(arXiv:2502.08788)——私はこれに反論しない。核心は個別の精度ではなく相関だという点だ。ensembleに入れるモデルを選ぶときですら、最も強いモデルではなく最も相関の少ない組み合わせを選ぶべきだという情報理論的な結果がある——弱くても多様であれば、最も強い単一モデルを上回る(arXiv:2602.08003)。ただしこのつまみには天井が低い。インターネットのコーパスは重なり、先に見たように大きなモデルほど再び一緒に間違える(arXiv:2506.07962)。多様性は相関を減らすが、0にはできない。

三つ目に、同じモデルの中で推論経路を散らすself-consistencyも、表面の誤りを無相関化して利得を生む(GSM8K +17.9pp, arXiv:2203.11171)。しかしその利得は、モデルが体系的に間違える地点——同じデータが刻んだ同じバイアス——の前で止まる。経路をいくら多様化しても、モデルが知らないことを知らない仕方は一つだ。

独立性の源	機能原理	限界
問題分解 (異なる入力)	入力が違えば誤りが構造的に独立	分解可能な問題のみ。依存的・調整が必要な作業には逆効果
異質モデル (GPT+Claude+Gemini)	重みが違えば相関↓	コーパスの重複 + 大きなモデルほど相関↑
推論経路の多様化 (self-consistency)	一つのモデル内で経路をサンプリング後、多数決	体系的な誤りの前で止まる

軸1の結論:マルチエージェントは独立性を設計すれば機能する。そして最も確実な独立性は、別のモデルを探すことではなく、問題を独立した断片に分割することから生まれる。

軸2 — verifierは独立性を迂回する

三つ目のつまみは種類が違う。軸1は誤りの相関を減らして投票を活かす。verifierは相関を迂回する——エージェントたちが皆一緒に間違えても、誤りと無関係な外部の基準が通過を阻む。投票ではなくゲートだ。だから独立性を確保できない場所でも、検証可能なドメインでさえあれば機能する。

この診断は私だけのものではない。“Consensus is Not Verification”(arXiv:2603.06612)は同じ結論を先に打ち込んでいる——合意ベースの集約は単一サンプル比で一貫した利得がなく、共有された誤解を増幅し、推論時のスケーリングは検証可能なドメイン(数学)では機能するが、非検証ドメインでは失敗する。合意が真実の信号だから数学で効くのではなく、verifierが候補を篩い分けるから効くのだ。私はその診断を受け入れ、一歩先へ行く——処方として。独立性の最強の源は分解であり、独立性と検証は競合ではなく補完であり、決定論的verifierがLLM判定者と分かれる地点は三つだ(後述)。

ところが業界はこの検証さえLLMに任せる——LLM-as-Judge。

公平に始めよう。LLM判定者はしばしばうまく機能する。MT-BenchでGPT-4判定者は人間の選好と80%超で一致し、これは人間同士の一致率と同じ水準だ(arXiv:2306.05685)。漠然とした選好評価ならLLM判定者は使える。問題はどこで壊れるかだ。

判定者は生成者と同じ罠を共有するとき壊れる。判定LLMは自分に馴染んだ(perplexityの低い)出力を人間より高く評価する(self-preference bias, NeurIPS 2024 WS, arXiv:2410.21819)。判定者が生成者と同じ分布を共有すれば、同じモデルが作った幻覚を「馴染みがあるから」通してしまう。80%の一致率が慰めにならないのは、間違える20%がよりによって生成者も間違える場所に集中するからだ——平均精度ではなく誤りの相関が問題なのだ。判定は正解ではなく、候補の提示位置のような無関係な変数にも揺らぐ(position bias, arXiv:2406.07791)。

補助的な根拠を一つ。LLM判定はハードウェア層でも揺らぐ。同じ入力、T=0のgreedy decodingですら、浮動小数点の非結合性と動的バッチングのためにGPU構成によって結果が分かれる——BF16で精度が最大9ppまで変動した(arXiv:2506.09501)。これは再現性の問題であって妥当性の問題ではないので、主論拠にはしない。ただ、同じ質問に同じ答えすら保証できないものを最終審判席に座らせるのは気が引ける、という程度だ。

だから逆方向がある。弱い生成者 + 強いverifier。 弱いモデルも同じverifierを付ければ強いモデルに近づき、弱いモデルの誤りはむしろ検出しやすい(arXiv:2509.17995)。複数の弱いverifierを加重結合して強いverifierを作ることもできるし(Weaver, arXiv:2506.18203)、formal verifierのフィードバックでLLM出力を精製して整合性を保証することもできる(AlphaVerus, arXiv:2412.06176)。これは傍流の主張ではない——検証可能な報酬で学習する推論モデルとコーディングエージェントは、いま最も速く発展している領域であり、Jason Weiはこれをverifier’s lawにまとめた:AIが強くなる程度は、課題の検証可能性に比例する。

ここで正直であるべきだ。verifierは魔法のオラクルではない。 テストは抜けることがあり、仕様は間違うことがある。もっと鋭く言えば——verifierをLLMが書けば、私が先ほどLLM-as-Judgeに加えた批判がそのまま蘇る。生成者と検証者が同じモデルなら、同じ場所で間違ったテストが、同じ場所で間違ったコードを通過させる。誤りの相関は検証レイヤーへ場所を移すだけで、消えはしない。

ではその蘇りを阻む方法は。verifierの信頼性を生成者の外側から引き上げることだ。三つが共に進む。

人間によるレビュー。 検証基準(仕様・テスト・property)を人が一度レビューして固定する。LLMが草案を書いても、通過基準は生成者の分布の外にいる人が確定する。コストは一度だけで、一度固定された基準は無限に再利用される——生成のたびに改めて判断するLLM-as-Judgeと決定的に異なる地点だ。
数学・論理への還元。 可能な限り検証を機械的に決定可能な形へ移す——type check、不変式(invariant)、formal verification、数学的property。ここにはLLMの「判断」が割り込む余地がない。真/偽がモデルの意見ではなく規則で分かれる。
反復テスト。 verifierの誤りは再現可能なので、累積的に改善される。回帰テストとproperty-based testingでカバレッジを広げれば、verifierが一度見逃した穴はテストとして刻印され、二度と同じ場所から漏れない。LLM判定者は同じ入力でも揺らぐので、この累積が不可能だ。

この三つがverifierを、生成者のバイアスと独立した基準にする。誤りの相関を検証レイヤーでも断ち切る方法は、verifierをモデルの中ではなく、人・数学・テストスイートという外部に打ち込むことだ。

ではdeterministicなverifierの違いはどこにあるのか。無誤りではない。三つだ。第一に、検証基準が生成者の重みの外側にある——人が書こうと別の手続きで作ろうと、生成者のバイアスと独立な基準を立てられる(LLM判定者は構造上不可能だ)。第二に、verifierの誤りは自信満々の幻覚ではなく、検出可能で再現可能な失敗として現れる——同じ入力に同じ判定を与えるのでデバッグでき、累積的に改善される。第三に、信頼が小さく監査可能な表面(仕様・テスト)へ移り、人が一度レビューすれば無限に再利用される。verifierが精度を保証するのではなく、verifierの品質がそのまま精度の上限になる——生成者のサイズではなく。

核心の洞察

マルチエージェントの精度公式:

精度 = f(個別の精度, 誤りの独立性, 検証メカニズム)

業界は最初の項(より大きなモデル)にだけ投資する。二つ目(独立性)は設計せず、三つ目(検証)はLLMに任せる。そして最初の項にだけ投資する戦略は逆説にぶつかる——モデルが大きくなるほど誤りの相関が高まるので、より賢いエージェントをより多く集めるほど、より仲良く一緒に間違える。

二つ目と三つ目が本当のつまみだ。そして二つは競合しない。独立性(軸1)は投票を活かし、verifier(軸2)は投票が届かない場所を切り取る。両方を備えれば最も強い。

Anthropicリサーチシステム:軸1の分解を極限まで——問題を分割して独立並列探索。verifierなしで90.2%向上。
SciencePedia(中国, 2026):独立した複数のsolverが各自で解き(軸1)、モデル間で答えが合意されたものだけを保存する(cross-model consensus, arXiv:2510.26854)。ただし最終フィルタが「モデル合意」なので軸2は半分しか掴めていない——合意は決定論的検証ではない。数学・論理のように検証可能なドメインに限定されるときだけ信頼できる理由だ。
同一モデル8エージェントが失敗する理由:両軸ともに不在。独立性ゼロ、検証ループゼロ。8個が一つの場所で一緒に止まる。
yongolがHaikuでも通る理由:軸2の直接実装。モデルの精度が低くても、決定論的verifierが各ステップでフィルタリングする——verifierの品質が支える限り。

民主主義の比喩

民主主義が同じニュースを見た有権者の多数決なら衆愚政治になるように、同じデータで学習したLLMの多数決は幻覚の合意だ。頭数が真実を作るのではない。独立した頭数が作る。そして頭数が届かない場所では、頭数の外の基準が作る。

進化との接続

同じ直観が学習アルゴリズムでも読める。誤差逆伝播はgradientの方向が相関し、進化は突然変異が独立に散らばる。gradientをまったく使わない遺伝的アルゴリズムが、深層強化学習でgradientベースとは異なる解空間を探索するという報告がある(Deep Neuroevolution, arXiv:1712.06567)。独立した探索が、相関した探索の届かない場所に届く——ensembleで見た原理が最適化でも同じ形だ。ただし「独立性ゆえにより良い」はまだ事後解釈だ——証明ではなく仮説として残しておく。

結論

マルチエージェントは「多ければ正確だ」ではない。攻撃対象はマルチエージェントではなく、独立性なき投票だ。同じモデルをN個集めて多数決するのは、一緒に間違える合唱団を育てることだ。

処方は二つで、どちらも本物だ。第一に、独立性を設計せよ——問題を独立した断片に分割すれば(最も確実だ)、同じモデルでもマルチエージェントは機能する。第二に、検証可能なドメインであれば、LLMの外側にverifierを立てよ——独立性と無関係に精度の上限を上げる。

スコープを正直に打ち込もう。verifierの軸(軸2)は検証可能なドメインでのみ答えだ——コード、数学、formal specのように、正解を外部の基準で切り取れる場所。開放型生成・要約・相談・創作・戦略判断のように、そんな基準がない領域では、軸1すなわち独立性の設計が唯一残るつまみだ。掛かったつまみはモデルのサイズではなく——誤りの独立性と、可能な場所では外部のverifierだ。

(利益相反の開示:私は決定論的verifierをキーストーンとするツールyongolを作っている。だからverifierの軸へ心が傾く。上の論証はそのバイアスまで勘案して読んでほしい——背骨が間違っていれば、ツールも間違っているのだ。)

参考

Condorcetとensemble理論

Condorcet陪審定理 (1785) — 多数決収束の二つの前提:個別精度 >50%、誤りの独立
Krogh & Vedelsby, Neural Network Ensembles, Cross Validation, and Active Learning (NeurIPS 1994) — ambiguity分解
Wood et al., A Unified Theory of Diversity in Ensemble Learning (JMLR 2023, arXiv:2301.03962) — bias-variance-diversity分解

LLMの誤り相関 / 合意の限界

Kim et al., Correlated Errors in Large Language Models (ICML 2025, arXiv:2506.07962) — 二つのモデルが同時に誤答すると60%が同一誤答、大きなモデルほど相関↑
Lefort et al., Examining Independence in Ensemble Sentiment Analysis … Condorcet Jury Theorem (arXiv:2409.00094) — Condorcetの独立性仮定がLLMで崩れる
Denisov-Blanch et al., Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness (2026, arXiv:2603.06612) — 合意集約は共有された誤解を増幅、検証可能ドメインでのみ推論時スケーリングが機能 (この文章の診断と同一——本文では処方で差別化)

マルチエージェント:独立性と分解

Cemri et al., Why Do Multi-Agent LLM Systems Fail? (UC Berkeley, 2025, arXiv:2503.13657) — 7つのフレームワーク、1,600+の実行トレースを分析。失敗の14モードを3カテゴリに分類:システム設計、エージェント間アラインメント失敗、検証(task verification)
Smit et al., Should we be going MAD? (ICML 2024, arXiv:2311.17371) — 討論が単純なベースラインを安定して上回れない
Zhang et al., Stop Overvaluing Multi-Agent Debate (arXiv:2502.08788) — 異質性が解毒剤 (独立性を回復すれば機能)
Du et al., Improving Factuality and Reasoning through Multiagent Debate (ICML 2024, arXiv:2305.14325) — MAD元祖の肯定的主張
Wang et al., Self-Consistency Improves Chain of Thought Reasoning (ICLR 2023, arXiv:2203.11171) — 経路多様化の利得
Turkmen et al., Don’t Always Pick the Highest-Performing Model: An Information Theoretic View of LLM Ensemble Selection (2026, arXiv:2602.08003) — ensemble選択の基準は個別性能ではなく相関↓(相互情報量の最大化)。弱くても多様なら勝つ

LLM-as-Judgeの信頼性

Zheng et al., Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena (NeurIPS 2023, arXiv:2306.05685) — GPT-4判定者が人間と80%+一致 (肯定的証拠)
Wataoka et al., Self-Preference Bias in LLM-as-a-Judge (NeurIPS 2024 WS, arXiv:2410.21819)
Shi et al., Judging the Judges: Position Bias in LLM-as-a-Judge (arXiv:2406.07791)
Numerical Sources of Nondeterminism in LLM Inference (arXiv:2506.09501) — T=0でも出力が揺らぐ

弱い生成者 + 強いverifier

Saad-Falcon et al., Shrinking the Generation-Verification Gap with Weak Verifiers (Weaver, arXiv:2506.18203)
Aggarwal et al., AlphaVerus: Formally Verified Code Generation (arXiv:2412.06176)
Variation in Verification: Understanding Verification Dynamics in LLMs (arXiv:2509.17995)

検証可能な生成の事例

SciencePedia (DP Technology / DeepModeling, 2026) — Inverse Knowledge Search over Verifiable Reasoning (arXiv:2510.26854)。独立solver + cross-model consensusフィルタ

進化 vs gradient

Such et al., Deep Neuroevolution (arXiv:1712.06567) — GAがgradientとは異なる解空間を探索

一次実測 (著者本人)

ZenFlow / Grok Build: 8 concurrent agents、10個中3個のエンドポイント未完 (validate未通過)
ZenFlow / yongol: Haiku完走、Sonnet 131分、Opus 76分

併せて読みたい

Don’t Build Multi-Agents — Cognition (Devin制作元), 2025。マルチエージェントを作らない方が良いと断言した現場の名文。コンテキストが分断されるとエージェントたちが互いに衝突する——分解できない作業の罠。(続編 Multi-Agents: What’s Actually Working, 2026も併せて。)
How we built our multi-agent research system — Anthropic, 2025。上の文章と対で読みたい。マルチエージェントが機能する条件——サブ作業が独立に並列化できるとき(軸1の分解)——を90.2%向上で示す。
Asymmetry of verification and verifier’s law — Jason Wei, 2025。「AIが強くなる程度は、その課題の検証可能性に比例する。」軸2(弱い生成者 + 強いverifier)の理論的背骨。
Hallucinations in code are the least dangerous form of LLM mistakes — Simon Willison, 2025。コードは実行した瞬間に幻覚がばれる。決定論的検証がなぜ決定的なレバーなのかの最も直観的な事例。
Using LLM-as-a-Judge For Evaluation — Hamel Husain, 2024。LLM判定者をそのまま信じてはいけない理由と、人間とアラインさせた後にはじめて自動化でスケールする実務手順。
Defeating Nondeterminism in LLM Inference — Thinking Machines Lab, 2025。temperature=0でもLLMが揺らぐ本当の原因。verifierをモデルの外に置くべきインフラ的な根拠。
The Wisdom of Crowds — 群衆の知恵は、多様性と独立性が崩れると蒸発する。Condorcetの独立性の前提を非AIの文脈でやさしく解きほぐした導入。

カバー画像: AI生成（Google Gemini）

変更履歴

2026-06-02: 初版