Die Voraussetzungen für eine höhere Genauigkeit von LLM-Multi-Agenten

Das Problem

Es gibt die Intuition: „Mehrere Agenten parallel laufen lassen macht genauer." Sie ist nur zur Hälfte wahr.

Worauf man präzise zielen muss, ist nicht der Multi-Agent an sich, sondern Multi-Agenten, die ohne Unabhängigkeit abstimmen. Wenn man N Agenten aus demselben Modell, denselben Daten, derselben Ausrichtung laufen lässt und per majority vote entscheidet — wird es nicht genauer. Sie irren gemeinsam.

  • Empirische Messung an einem LLM-ensemble zur Stimmungsanalyse: Selbst das Hinzufügen größerer und genauerer Modelle brachte kaum Gewinn. Denn die Unabhängigkeit, die das Condorcet-Theorem voraussetzt, war gebrochen (arXiv:2409.00094).
  • Multi-Agent-Debatte (MAD): Selbst wenn man eine Debatte ansetzt, schlägt sie die self-consistency eines einzelnen Agenten nicht zuverlässig (ICML 2024, arXiv:2311.17371).
  • Meine anekdotische Beobachtung (Stichprobe 1, ohne Kontrolle): Bei der ZenFlow-Aufgabe ließ ich Grok Build mit 8 gleichzeitigen Agenten laufen, und bei 3 von 10 Endpunkten blieb es hängen und bestand validate nicht. Es ist nur eine Anekdote, also wollen wir ihr nicht so viel Gewicht geben wie den beiden obigen Studien.

Der majority vote ist keine Magie. Das Condorcet-Jury-Theorem hat vor 200 Jahren seine Voraussetzungen benannt. Und wenn man diese Voraussetzungen erfüllt, funktionieren Multi-Agenten tatsächlich. Dieser Text handelt davon, was diese Voraussetzungen sind und wie man sie erfüllt.

Condorcets zwei Voraussetzungen

1785 fasste Condorcet die Bedingung, unter der ein majority vote zur Wahrheit konvergiert, in eine Formel.

  1. Genauigkeit jedes Wählers > 50 %
  2. Fehler zwischen den Wählern sind unabhängig

(Streng genommen gibt es eine dritte, die Uniformitätsannahme, dass alle dieselbe Genauigkeit haben. Der Einfachheit halber lassen wir sie beiseite.)

Punkt 2 ist der Kern. Modelle, die mit denselben Trainingsdaten, derselben Architektur, demselben RLHF ausgerichtet wurden, irren an denselben Stellen. Stimmt man ab, wird die „gemeinsam falsche Antwort" zur Mehrheit.

Das ist nicht nur Intuition. Eine Studie, die über 350 LLMs analysierte, berichtet, dass zwei Modelle, wenn sie gleichzeitig irren, mit 60 % Wahrscheinlichkeit zur exakt selben falschen Antwort konvergieren (ICML 2025, arXiv:2506.07962). In derselben Studie wurde ein noch größeres Paradox beobachtet — je größer und genauer die Modelle, desto höher die Fehlerkorrelation. Das galt selbst bei unterschiedlichen Architekturen. (Es ist eine einzelne, groß angelegte Analyse und noch keine breite Replikation. Doch zumindest die Richtung ist genau die, die Condorcet vorhergesagt hat.)

Die Mathematik korrelierter Fehler

Sind die Fehler unabhängig, schneidet das ensemble falsche Antworten weg. Sind sie korreliert, gibt es nichts wegzuschneiden.

  • Bei Unabhängigkeit: P(beide falsch) = 0,1 × 0,1 = 0,01
  • Bei vollständiger Korrelation: P(beide falsch) ≈ 0,1 (irrt einer, irrt auch der andere)

Diese Intuition wurzelt in einem 30 Jahre alten Theorem. Die ambiguity-Zerlegung von Krogh und Vedelsby (NeurIPS 1994): ensemble-Fehler = durchschnittlicher Mitglieder-Fehler − ensemble-Diversität. Je stärker die Mitgliederfehler korreliert sind, desto mehr konvergiert der Diversitätsterm gegen 0, und egal wie viele Modelle man hinzufügt, der Gewinn verschwindet. Die vereinheitlichte Theorie in JMLR 2023 hat dies verallgemeinert — Diversität ist kein separater Hebel, sondern eine Dimension, die in der bias-variance-Zerlegung verborgen liegt (arXiv:2301.03962).

Zusammengefasst:

  • Bedingung, unter der das ensemble die Genauigkeit erhöht: Je niedriger die Fehlerkorrelation, desto größer der Gewinn (maximal bei negativer Korrelation).
  • Bedingung, unter der der ensemble-Gewinn gegen 0 konvergiert: Fehlerkorrelation → 1 (dieselben Daten, dieselbe Verzerrung).

Auch die Form der Abstimmung zählt. Der majority vote hebt bei Unabhängigkeit die Genauigkeit, ganz wie es Condorcet sagt. Bindet man sie jedoch in einen Konsens „alle müssen zustimmen" (unanimity, AND-Gate), bricht die Genauigkeit multiplikativ zusammen — wenn die Klassifikatorgenauigkeit 0,977 beträgt und man n Klassifikatoren zur Einstimmigkeit bindet, ergibt das 0,977ⁿ. Entwirft man das Gate falsch, erzeugen mehr Agenten eine niedrigere Genauigkeit.

Bis hierher die Diagnose. Nun verzweigt sich die Therapie in zwei Richtungen — die Fehlerkorrelation verringern (Achse 1) oder sie umgehen (Achse 2).

Achse 1 — Sichert man Unabhängigkeit, funktionieren Multi-Agenten

Halten wir es klar fest. Nicht der Multi-Agent ist falsch. Falsch ist die Abstimmung ohne Unabhängigkeit. Erfüllt man Condorcets zweite Voraussetzung — macht man die Fehler der Agenten unkorreliert — hebt der majority vote die Genauigkeit wie versprochen. Es gibt zwei Wege, Unabhängigkeit zu schaffen.

(a) Das Problem zerlegen — das ist am stärksten.

Gib den Agenten nicht dasselbe Problem und lass sie abstimmen, sondern gib ihnen unterschiedliche Teilprobleme. Sind die Eingaben verschieden, werden die Fehler strukturell unabhängig — selbst beim selben Modell. Zwei Agenten, die unterschiedliche Dokumente lesen, können nicht an derselben Stelle irren. Denn sie schauen auf verschiedene Stellen.

Dass Anthropics Multi-Agent-Forschungssystem eine Verbesserung um 90,2 % gegenüber einem einzelnen Agenten berichtet, beruht genau auf diesem Prinzip. Ein Lead-Agent zerlegt das Problem und verteilt es auf parallele Sub-Agenten, die jeweils unabhängig suchen, und deren Ergebnisse werden zusammengeführt. Ein verifier war nicht nötig. Denn die Zerlegung erzeugte die Unabhängigkeit kostenlos.

Doch es gibt eine Bedingung. Das Problem muss zerlegbar sein. Bei Aufgaben, deren Teilaufgaben voneinander abhängen und ständig koordiniert werden müssen — etwa wenn mehrere gleichzeitig denselben Codeblock bearbeiten — kollidieren parallele Sub-Agenten eher. Der Kontext zersplittert, und sie treffen einander widersprechende Entscheidungen (Cognition, „Don’t Build Multi-Agents"). Die Unabhängigkeit der Zerlegung ist nur dann kostenlos, wenn die Teilprobleme wirklich unabhängig sind.

(b) Die Modelle heterogenisieren — funktioniert, hat aber eine Decke.

Lässt man dasselbe Problem von unterschiedlichen Modellen (GPT, Claude, Gemini) lösen, fällt die Fehlerkorrelation, weil die Gewichte verschieden sind. Auch die Multi-Agent-Debatte schlägt erst dann die Single-Baseline, wenn man heterogene Modelle mischt (arXiv:2502.08788) — das widerlege ich nicht. Der Kern ist, dass es nicht um die individuelle Genauigkeit, sondern um die Korrelation geht. Es gibt ein informationstheoretisches Ergebnis, wonach man selbst bei der Auswahl der Modelle für ein ensemble nicht das stärkste Modell wählen sollte, sondern die am wenigsten korrelierte Kombination — schwach, aber vielfältig schlägt das stärkste Einzelmodell (arXiv:2602.08003). Doch dieser Hebel hat eine niedrige Decke. Internet-Korpora überlappen sich, und wie zuvor gesehen, irren größere Modelle wieder gemeinsam (arXiv:2506.07962). Diversität verringert die Korrelation, macht sie aber nicht zu null.

Drittens erzielt auch self-consistency, die innerhalb desselben Modells die Schlussfolgerungspfade streut, einen Gewinn, indem sie oberflächliche Fehler dekorreliert (GSM8K +17,9 pp, arXiv:2203.11171). Doch dieser Gewinn endet vor den Stellen, an denen das Modell systematisch irrt — vor denselben Verzerrungen, die dieselben Daten eingraviert haben. Egal wie sehr man die Pfade diversifiziert, das Modell kennt nur eine Art, das nicht zu wissen, was es nicht weiß.

Quelle der UnabhängigkeitFunktionsprinzipGrenze
Problemzerlegung (unterschiedliche Eingaben)Sind die Eingaben verschieden, sind die Fehler strukturell unabhängigNur zerlegbare Probleme. Bei abhängigen, koordinationsbedürftigen Aufgaben kontraproduktiv
Heterogene Modelle (GPT+Claude+Gemini)Sind die Gewichte verschieden, sinkt die KorrelationKorpus-Überlappung + je größer das Modell, desto höher die Korrelation
Diversifizierung der Schlussfolgerungspfade (self-consistency)Pfad-Sampling innerhalb eines Modells, dann majority voteEndet vor systematischen Fehlern

Das Fazit von Achse 1: Multi-Agenten funktionieren, wenn man Unabhängigkeit entwirft. Und die sicherste Unabhängigkeit kommt nicht daher, ein anderes Modell zu beschaffen, sondern das Problem in unabhängige Stücke zu zerlegen.

Achse 2 — Der verifier umgeht die Unabhängigkeit

Der dritte Hebel ist von anderer Art. Achse 1 rettet die Abstimmung, indem sie die Fehlerkorrelation verringert. Der verifier umgeht die Korrelation — selbst wenn alle Agenten gemeinsam irren, verhindert ein externes Kriterium, das vom Fehler unabhängig ist, das Durchkommen. Kein Abstimmen, sondern ein Gate. Daher funktioniert es selbst dort, wo man keine Unabhängigkeit sichern kann, solange es nur eine verifizierbare Domäne ist.

Diese Diagnose ist nicht allein meine. „Consensus is Not Verification" (arXiv:2603.06612) hat dieselbe Schlussfolgerung zuerst festgenagelt — konsensbasierte Aggregation bringt gegenüber einem einzelnen Sample keinen konsistenten Gewinn und verstärkt geteilte Missverständnisse, und Inferenzzeit-Skalierung funktioniert in verifizierbaren Domänen (Mathematik), versagt aber in nicht-verifizierbaren. Es funktioniert in der Mathematik nicht, weil der Konsens ein Wahrheitssignal wäre, sondern weil der verifier die Kandidaten filtert. Ich nehme diese Diagnose an und gehe einen Schritt weiter — zur Therapie. Die stärkste Quelle der Unabhängigkeit ist die Zerlegung, Unabhängigkeit und Verifikation sind keine Konkurrenten, sondern Ergänzung, und der Punkt, an dem sich der deterministische verifier vom LLM-Richter trennt, besteht aus drei Dingen (unten).

Doch die Branche überlässt selbst diese Verifikation dem LLM — LLM-as-Judge.

Beginnen wir fair. Der LLM-Richter funktioniert oft gut. Bei MT-Bench stimmte der GPT-4-Richter zu über 80 % mit menschlichen Präferenzen überein, und das auf demselben Niveau wie die Übereinstimmung zwischen Menschen (arXiv:2306.05685). Bei einer vagen Präferenzbewertung ist der LLM-Richter brauchbar. Die Frage ist, wo er zerbricht.

Der Richter zerbricht, wenn er dieselben Fallen wie der Generator teilt. Das urteilende LLM bewertet Ausgaben, die ihm vertraut sind (niedrige perplexity), höher als ein Mensch (self-preference bias, NeurIPS 2024 WS, arXiv:2410.21819). Teilt der Richter dieselbe Verteilung wie der Generator, lässt er eine vom selben Modell erzeugte Halluzination durch, „weil sie vertraut ist". Die 80-%-Übereinstimmung ist kein Trost, weil sich die 20 %, in denen er irrt, ausgerechnet auf die Stellen drängen, an denen auch der Generator irrt — nicht die durchschnittliche Genauigkeit, sondern die Fehlerkorrelation ist das Problem. Das Urteil schwankt auch unter irrelevanten Variablen wie der Präsentationsposition des Kandidaten statt der richtigen Antwort (position bias, arXiv:2406.07791).

Ein ergänzendes Argument. Das LLM-Urteil schwankt auch auf der Hardware-Ebene. Selbst bei gleicher Eingabe und T=0 greedy decoding spalten sich die Ergebnisse je nach GPU-Konfiguration wegen der Nicht-Assoziativität von Gleitkommazahlen und dynamischem Batching — bei BF16 schwankte die Genauigkeit um bis zu 9 pp (arXiv:2506.09501). Das ist ein Reproduzierbarkeits- und kein Validitätsproblem, also mache ich es nicht zum Hauptargument. Es ist nur so, dass es beklemmend ist, etwas auf den finalen Richterstuhl zu setzen, das nicht einmal dieselbe Antwort auf dieselbe Frage garantieren kann.

Daher gibt es die Gegenrichtung. Schwacher Generator + starker verifier. Auch ein schwaches Modell nähert sich einem starken an, wenn man denselben verifier anhängt, und die Fehler des schwachen Modells sind sogar leichter zu erkennen (arXiv:2509.17995). Man kann mehrere schwache Verifizierer gewichtet kombinieren, um einen starken zu bilden (Weaver, arXiv:2506.18203), oder mit dem Feedback eines formal verifier die LLM-Ausgabe verfeinern und Korrektheit garantieren (AlphaVerus, arXiv:2412.06176). Das ist keine Randbehauptung — Schlussfolgerungsmodelle und Coding-Agenten, die mit verifizierbarer Belohnung trainieren, sind derzeit das Feld mit der schnellsten Entwicklung, und Jason Wei hat dies als verifier’s law zusammengefasst: Wie stark eine KI wird, ist proportional zur Verifizierbarkeit der Aufgabe.

Hier muss man ehrlich sein. Der verifier ist kein magisches Orakel. Tests können Lücken haben, Spezifikationen können falsch sein. Schärfer noch — schreibt ein LLM den verifier, ersteht die Kritik, die ich gerade an LLM-as-Judge geübt habe, unverändert wieder auf. Sind Generator und Verifizierer dasselbe Modell, lässt ein an derselben Stelle falscher Test einen an derselben Stelle falschen Code durch. Die Fehlerkorrelation verlagert nur ihren Platz in die Verifikationsschicht, sie verschwindet nicht.

Wie verhindert man dann die Wiederauferstehung? Indem man die Zuverlässigkeit des verifier außerhalb des Generators hebt. Drei Dinge gehen zusammen.

  • Menschliche Prüfung. Ein Mensch prüft das Verifikationskriterium (Spezifikation, Test, Eigenschaft) einmal und fixiert es. Selbst wenn das LLM den Entwurf schreibt, legt ein Mensch außerhalb der Generatorverteilung das Bestehenskriterium fest. Der Aufwand fällt nur einmal an, und ein einmal fixiertes Kriterium wird unendlich wiederverwendet — der entscheidende Unterschied zu LLM-as-Judge, das bei jeder Generierung erneut urteilt.
  • Reduktion auf Mathematik und Logik. Verlege die Verifikation so weit wie möglich in eine maschinell entscheidbare Form — Typprüfung, Invarianten (invariant), formal verification, mathematische Eigenschaften. Hier ist kein Platz für das „Urteil" eines LLM. Wahr/falsch spaltet sich nicht durch Modellmeinung, sondern durch Regeln.
  • Wiederholtes Testen. Da die Fehler des verifier reproduzierbar sind, werden sie kumulativ verbessert. Erweitert man die Abdeckung mit Regressionstests und property-based testing, wird ein Loch, das der verifier einmal übersehen hat, durch den Test festgenagelt und leckt nie wieder an derselben Stelle. Der LLM-Richter schwankt selbst bei gleicher Eingabe, sodass diese Kumulation unmöglich ist.

Diese drei machen den verifier zu einem Kriterium, das unabhängig von der Verzerrung des Generators ist. Die Methode, die Fehlerkorrelation auch in der Verifikationsschicht zu durchtrennen, besteht darin, den verifier nicht im Modell, sondern außen — bei Mensch, Mathematik und Test-Suite — festzunageln.

Wo liegt also der Unterschied des deterministischen verifier? Nicht in der Fehlerlosigkeit. In drei Dingen. Erstens liegt das Verifikationskriterium außerhalb der Gewichte des Generators — ob ein Mensch es schreibt oder es durch ein anderes Verfahren entsteht, man kann ein Kriterium aufstellen, das unabhängig von der Verzerrung des Generators ist (für den LLM-Richter strukturell unmöglich). Zweitens treten die Fehler des verifier nicht als selbstbewusste Halluzination, sondern als erkennbares und reproduzierbares Versagen zutage — da er bei gleicher Eingabe dasselbe Urteil gibt, wird er debuggt und kumulativ verbessert. Drittens verlagert sich das Vertrauen auf eine kleine, auditierbare Oberfläche (Spezifikation, Test), die, einmal von einem Menschen geprüft, unendlich wiederverwendet wird. Der verifier garantiert nicht die Genauigkeit, sondern die Qualität des verifier wird zur Obergrenze der Genauigkeit — nicht die Größe des Generators.

Die zentrale Einsicht

Die Genauigkeitsformel des Multi-Agenten:

Genauigkeit = f(individuelle Genauigkeit, Fehlerunabhängigkeit, Verifikationsmechanismus)

Die Branche investiert nur in das erste (größeres Modell). Das zweite (Unabhängigkeit) wird nicht entworfen, das dritte (Verifikation) wird dem LLM überlassen. Und die Strategie, nur in das erste zu investieren, stößt auf ein Paradox — je größer das Modell, desto höher die Fehlerkorrelation, sodass je mehr intelligentere Agenten man sammelt, sie umso einträchtiger gemeinsam irren.

Das zweite und das dritte sind die wahren Hebel. Und die beiden konkurrieren nicht. Unabhängigkeit (Achse 1) rettet die Abstimmung, der verifier (Achse 2) schneidet die Stellen ab, die die Abstimmung nicht erreicht. Hat man beide, ist man am stärksten.

  • Anthropic-Forschungssystem: Achse 1 (Zerlegung) bis zum Äußersten — das Problem zerlegen, unabhängige parallele Suche. Ohne verifier 90,2 % Verbesserung.
  • SciencePedia (China, 2026): Mehrere unabhängige solver lösen jeweils (Achse 1), und nur das, worüber zwischen den Modellen Konsens herrscht, wird bewahrt (cross-model consensus, arXiv:2510.26854). Doch da der finale Filter „Modellkonsens" ist, hat es Achse 2 nur zur Hälfte erfasst — Konsens ist keine deterministische Verifikation. Daher ist er nur zuverlässig, wenn er auf verifizierbare Domänen wie Mathematik und Logik beschränkt ist.
  • Warum 8 Agenten desselben Modells scheitern: Beide Achsen fehlen. Null Unabhängigkeit, null Verifikationsschleife. 8 bleiben an einer Stelle gemeinsam stehen.
  • Warum yongol selbst mit Haiku funktioniert: Die direkte Umsetzung von Achse 2. Auch wenn die Modellgenauigkeit niedrig ist, filtert der deterministische verifier in jedem Schritt — solange die Qualität des verifier es trägt.

Die Demokratie-Analogie

So wie eine Demokratie zur Ochlokratie wird, wenn sie der majority vote von Wählern ist, die dieselbe Nachricht gesehen haben, ist der majority vote von LLMs, die auf denselben Daten trainiert wurden, ein Konsens der Halluzination. Die Kopfzahl schafft nicht die Wahrheit. Unabhängige Köpfe schaffen sie. Und dort, wo die Kopfzahl nicht hinreicht, schafft sie ein Kriterium außerhalb der Kopfzahl.

Die Verbindung zur Evolution

Dieselbe Intuition lässt sich auch in Lernalgorithmen ablesen. Bei der Backpropagation sind die gradient-Richtungen korreliert, bei der Evolution streuen die Mutationen unabhängig. Es gibt einen Bericht, wonach ein genetischer Algorithmus, der gar keinen gradient nutzt, im Deep Reinforcement Learning einen anderen Lösungsraum erkundet als gradient-basierte Verfahren (Deep Neuroevolution, arXiv:1712.06567). Unabhängige Suche erreicht Stellen, die korrelierte Suche nicht erreicht — das Prinzip, das wir beim ensemble gesehen haben, hat in der Optimierung dieselbe Gestalt. Allerdings ist „besser wegen der Unabhängigkeit" noch eine nachträgliche Deutung — ich belasse es als Hypothese, nicht als Beweis.

Fazit

Multi-Agenten heißt nicht „viele sind genau". Das Angriffsziel ist nicht der Multi-Agent, sondern die Abstimmung ohne Unabhängigkeit. N Exemplare desselben Modells zu sammeln und per majority vote entscheiden zu lassen, heißt, einen Chor zu züchten, der gemeinsam irrt.

Die Therapie besteht aus zwei Teilen, und beide sind echt. Erstens, entwirf Unabhängigkeit — zerlegt man das Problem in unabhängige Stücke (am sichersten), funktionieren Multi-Agenten selbst mit demselben Modell. Zweitens, wenn es eine verifizierbare Domäne ist, stelle einen verifier außerhalb des LLM auf — er hebt die Obergrenze der Genauigkeit unabhängig von der Unabhängigkeit.

Nageln wir den Geltungsbereich ehrlich fest. Die verifier-Achse (Achse 2) ist nur in verifizierbaren Domänen die Antwort — Code, Mathematik, formale Spezifikationen, wo man die richtige Antwort durch ein externes Kriterium herausschneiden kann. In Bereichen ohne ein solches Kriterium — offene Generierung, Zusammenfassung, Beratung, kreatives Schaffen, strategisches Urteil — bleibt Achse 1, also der Entwurf der Unabhängigkeit, der einzige verbleibende Hebel. Der verschlossene Hebel ist nicht die Modellgröße, sondern — die Unabhängigkeit der Fehler und, wo möglich, ein externer verifier.

(Interessenkonflikt-Hinweis: Ich baue yongol, ein Werkzeug, das den deterministischen verifier als Keystone setzt. Daher neigt mein Herz zur verifier-Achse. Lies das obige Argument unter Berücksichtigung dieser Verzerrung — ist das Rückgrat falsch, ist auch das Werkzeug falsch.)

Referenzen

Condorcet und ensemble-Theorie

  • Condorcet-Jury-Theorem (1785) — die zwei Voraussetzungen der Mehrheitskonvergenz: individuelle Genauigkeit >50 %, Fehlerunabhängigkeit
  • Krogh & Vedelsby, Neural Network Ensembles, Cross Validation, and Active Learning (NeurIPS 1994) — ambiguity-Zerlegung
  • Wood et al., A Unified Theory of Diversity in Ensemble Learning (JMLR 2023, arXiv:2301.03962) — bias-variance-diversity-Zerlegung

LLM-Fehlerkorrelation / Grenzen des Konsenses

  • Kim et al., Correlated Errors in Large Language Models (ICML 2025, arXiv:2506.07962) — bei gleichzeitigem Irren zweier Modelle 60 % identische Fehlantwort, je größer das Modell, desto höher die Korrelation
  • Lefort et al., Examining Independence in Ensemble Sentiment Analysis … Condorcet Jury Theorem (arXiv:2409.00094) — Condorcets Unabhängigkeitsannahme bricht bei LLMs
  • Denisov-Blanch et al., Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness (2026, arXiv:2603.06612) — Konsensaggregation verstärkt geteilte Missverständnisse, Inferenzzeit-Skalierung funktioniert nur in verifizierbaren Domänen (identische Diagnose wie dieser Text — im Haupttext durch die Therapie abgegrenzt)

Multi-Agent: Unabhängigkeit und Zerlegung

  • Cemri et al., Why Do Multi-Agent LLM Systems Fail? (UC Berkeley, 2025, arXiv:2503.13657) — Analyse von 1.600+ Ausführungs-Traces über 7 Frameworks. 14 Fehlermodi in 3 Kategorien klassifiziert: Systemdesign, Ausrichtungsversagen zwischen Agenten, Verifikation (task verification)
  • Smit et al., Should we be going MAD? (ICML 2024, arXiv:2311.17371) — Debatte schlägt einfache Baseline nicht zuverlässig
  • Zhang et al., Stop Overvaluing Multi-Agent Debate (arXiv:2502.08788) — Heterogenität als Gegenmittel (funktioniert, wenn man Unabhängigkeit wiederherstellt)
  • Du et al., Improving Factuality and Reasoning through Multiagent Debate (ICML 2024, arXiv:2305.14325) — ursprüngliche positive MAD-Behauptung
  • Wang et al., Self-Consistency Improves Chain of Thought Reasoning (ICLR 2023, arXiv:2203.11171) — der Gewinn der Pfaddiversifizierung
  • Turkmen et al., Don’t Always Pick the Highest-Performing Model: An Information Theoretic View of LLM Ensemble Selection (2026, arXiv:2602.08003) — das Auswahlkriterium für ein ensemble ist nicht die individuelle Leistung, sondern niedrige Korrelation (Maximierung der gegenseitigen Information). Schwach, aber vielfältig gewinnt

Zuverlässigkeit von LLM-as-Judge

  • Zheng et al., Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena (NeurIPS 2023, arXiv:2306.05685) — GPT-4-Richter stimmt zu 80 %+ mit Menschen überein (positiver Beleg)
  • Wataoka et al., Self-Preference Bias in LLM-as-a-Judge (NeurIPS 2024 WS, arXiv:2410.21819)
  • Shi et al., Judging the Judges: Position Bias in LLM-as-a-Judge (arXiv:2406.07791)
  • Numerical Sources of Nondeterminism in LLM Inference (arXiv:2506.09501) — Ausgabe schwankt selbst bei T=0

Schwacher Generator + starker verifier

  • Saad-Falcon et al., Shrinking the Generation-Verification Gap with Weak Verifiers (Weaver, arXiv:2506.18203)
  • Aggarwal et al., AlphaVerus: Formally Verified Code Generation (arXiv:2412.06176)
  • Variation in Verification: Understanding Verification Dynamics in LLMs (arXiv:2509.17995)

Fälle verifizierbarer Generierung

  • SciencePedia (DP Technology / DeepModeling, 2026) — Inverse Knowledge Search over Verifiable Reasoning (arXiv:2510.26854). Unabhängige solver + cross-model consensus-Filter

Evolution vs. gradient

  • Such et al., Deep Neuroevolution (arXiv:1712.06567) — GA erkundet einen anderen Lösungsraum als gradient

Primäre Messung (vom Autor selbst)

  • ZenFlow / Grok Build: 8 concurrent agents, 3 von 10 Endpunkten unvollendet (validate nicht bestanden)
  • ZenFlow / yongol: Haiku durchgelaufen, Sonnet 131 Min., Opus 76 Min.

Weiterführende Lektüre

  • Don’t Build Multi-Agents — Cognition (Hersteller von Devin), 2025. Ein Feldklassiker, der kategorisch behauptet, es sei besser, keine Multi-Agenten zu bauen. Zersplittert der Kontext, kollidieren die Agenten miteinander — die Falle nicht zerlegbarer Aufgaben. (Auch der Nachfolger Multi-Agents: What’s Actually Working, 2026, dazu.)
  • How we built our multi-agent research system — Anthropic, 2025. Im Paar mit dem obigen Text zu lesen. Zeigt mit 90,2 % Verbesserung die Bedingung, unter der Multi-Agenten funktionieren — wenn Teilaufgaben unabhängig parallelisiert werden (die Zerlegung von Achse 1).
  • Asymmetry of verification and verifier’s law — Jason Wei, 2025. „Wie stark eine KI wird, ist proportional zur Verifizierbarkeit dieser Aufgabe." Das theoretische Rückgrat von Achse 2 (schwacher Generator + starker verifier).
  • Hallucinations in code are the least dangerous form of LLM mistakes — Simon Willison, 2025. Code entlarvt die Halluzination in dem Moment, in dem er ausgeführt wird. Das intuitivste Beispiel dafür, warum deterministische Verifikation der entscheidende Hebel ist.
  • Using LLM-as-a-Judge For Evaluation — Hamel Husain, 2024. Warum man dem LLM-Richter nicht einfach vertrauen darf, und das praktische Verfahren, erst nach der Ausrichtung am Menschen per Automatisierung zu skalieren.
  • Defeating Nondeterminism in LLM Inference — Thinking Machines Lab, 2025. Die wahre Ursache, warum ein LLM selbst bei temperature=0 schwankt. Die infrastrukturelle Begründung dafür, den verifier außerhalb des Modells zu platzieren.
  • The Wisdom of Crowds — Die Weisheit der Vielen verdunstet, wenn Diversität und Unabhängigkeit zusammenbrechen. Eine leicht verständliche Einführung in Condorcets Unabhängigkeitsvoraussetzung im Nicht-KI-Kontext.

  • Titelbild: KI-generiert (Google Gemini)