Prasyarat untuk Meningkatkan Akurasi Multi-Agen LLM

Prasyarat untuk Meningkatkan Akurasi Multi-Agen LLM Image: AI generated

Masalah

Ada intuisi bahwa “menjalankan banyak agen membuatnya akurat.” Hanya setengah benar.

Yang harus dibidik dengan tepat bukanlah multi-agen itu sendiri, melainkan multi-agen yang memungut suara tanpa independensi. Jika Anda menjalankan N agen yang dibuat dari model yang sama, data yang sama, dan alignment yang sama lalu mengambil majority vote — tidak menjadi lebih akurat. Mereka salah bersama-sama.

Pengukuran nyata ensemble LLM untuk analisis sentimen: menambahkan model yang lebih besar dan lebih akurat hanya memberi keuntungan tipis. Sebab independensi yang diasumsikan teorema Condorcet sudah runtuh (arXiv:2409.00094).
Debat multi-agen (MAD): bahkan dengan menambahkan debat, ia tidak secara stabil mengalahkan self-consistency dari agen tunggal (ICML 2024, arXiv:2311.17371).
Observasi anekdotal saya (sampel 1, tanpa kontrol): pada tugas ZenFlow, ketika saya menjalankan Grok Build sebagai 8 agen serentak, ia berhenti di 3 dari 10 endpoint dan tidak lolos validate. Karena ini hanya anekdot, jangan beri bobot sebesar dua riset di atas.

Majority vote bukan sihir. Teorema juri Condorcet sudah mematok prasyaratnya 200 tahun lalu. Dan jika prasyarat itu terpenuhi, multi-agen memang benar-benar bekerja. Tulisan ini tentang apa prasyarat itu dan bagaimana memenuhinya.

Dua Prasyarat Condorcet

Pada tahun 1785, Condorcet mematok kondisi agar majority vote konvergen ke kebenaran ke dalam sebuah rumus.

Akurasi setiap pemilih > 50%
Error antarpemilih bersifat independen

(Secara ketat ada yang ketiga, yaitu prasyarat keseragaman bahwa semua memiliki akurasi yang sama. Untuk penyederhanaan, kita lipat dulu.)

Nomor 2 adalah intinya. Model-model yang di-align dengan data latih yang sama, arsitektur yang sama, dan RLHF yang sama akan salah di tempat yang sama. Jika dipungut suara, “jawaban yang salah bersama-sama” menjadi mayoritas.

Ini bukan sekadar intuisi. Sebuah riset yang menganalisis lebih dari 350 LLM melaporkan bahwa ketika dua model salah secara bersamaan, mereka konvergen ke jawaban salah yang persis sama dengan probabilitas 60% (ICML 2025, arXiv:2506.07962). Pada riset yang sama teramati paradoks yang lebih besar lagi — semakin besar dan akurat sebuah model, semakin tinggi korelasi errornya. Bahkan ketika arsitekturnya berbeda. (Ini analisis berskala besar tunggal dan reproduksi luas belum ada. Namun arahnya persis seperti yang diramalkan Condorcet.)

Matematika Error yang Berkorelasi

Jika error independen, ensemble memangkas jawaban salah. Jika berkorelasi, tak ada yang bisa dipangkas.

Saat independen: P(keduanya salah) = 0,1 × 0,1 = 0,01
Saat berkorelasi sempurna: P(keduanya salah) ≈ 0,1 (jika satu salah, yang lain juga salah)

Intuisi ini berakar pada sebuah teorema berusia 30 tahun. Dekomposisi ambiguity dari Krogh dan Vedelsby (NeurIPS 1994): error ensemble = rata-rata error anggota − diversitas ensemble. Semakin error anggota berkorelasi, semakin suku diversitas konvergen ke 0, dan sebanyak apa pun model ditambahkan, keuntungan menghilang. Teori terpadu di JMLR 2023 menggeneralisasinya — diversitas bukanlah tuas terpisah, melainkan dimensi yang tersembunyi di dalam dekomposisi bias-variance (arXiv:2301.03962).

Singkatnya:

Kondisi di mana ensemble menaikkan akurasi: semakin rendah korelasi error, semakin besar keuntungannya (maksimal pada korelasi negatif).
Kondisi di mana keuntungan ensemble konvergen ke 0: korelasi error → 1 (data yang sama, bias yang sama).

Bentuk pemungutan suara juga penting. Majority vote, jika independen, menaikkan akurasi sesuai Condorcet. Tetapi jika diikat sebagai konsensus “semua harus meloloskan” (unanimity, gerbang AND), akurasi runtuh secara perkalian — jika akurasi classifier 0,977 dan n diikat dengan kebulatan suara, hasilnya 0,977ⁿ. Jika gerbang dirancang dengan salah, lebih banyak agen menghasilkan akurasi yang lebih rendah.

Sampai di sini diagnosisnya. Kini resepnya bercabang dua — mengurangi korelasi error (sumbu 1), atau memintasnya (sumbu 2).

Sumbu 1 — Jika Independensi Terjamin, Multi-Agen Bekerja

Mari perjelas. Bukan multi-agen yang salah. Yang salah adalah pemungutan suara tanpa independensi. Jika prasyarat ke-2 Condorcet terpenuhi — jika error antaragen dibuat tidak berkorelasi — majority vote menaikkan akurasi sesuai janjinya. Ada dua jalan untuk menciptakan independensi.

(a) Pecah masalahnya — paling kuat.

Jangan memberi para agen masalah yang sama lalu menyuruh mereka memilih, melainkan beri sub-masalah yang berbeda. Jika input berbeda, error menjadi independen secara struktural — bahkan dengan model yang sama. Dua agen yang membaca dokumen berbeda tidak mungkin salah di tempat yang sama. Karena mereka memandang tempat yang berbeda.

Sistem riset multi-agen Anthropic melaporkan peningkatan 90,2% dibandingkan agen tunggal justru karena prinsip ini. Agen pemimpin memecah masalah lalu mendistribusikannya ke sub-agen paralel, dan menggabungkan hasil yang masing-masing dijelajahi secara independen. Verifier tidak diperlukan. Sebab dekomposisi membuat independensi menjadi gratis.

Namun ada syaratnya. Masalahnya harus dapat didekomposisi. Pada tugas di mana sub-pekerjaan saling bergantung dan harus terus-menerus berkoordinasi — seperti memperbaiki satu blok kode oleh banyak orang sekaligus — sub-agen paralel justru bertabrakan. Konteks terpotong-potong sehingga mereka mengambil keputusan yang saling bertentangan (Cognition, “Don’t Build Multi-Agents”). Independensi dari dekomposisi hanya gratis ketika sub-masalah benar-benar independen.

(b) Heterogenkan model — bekerja, tetapi ada plafonnya.

Bahkan untuk masalah yang sama, jika diselesaikan oleh model yang berbeda (GPT·Claude·Gemini), karena bobotnya berbeda, korelasi error turun. Debat multi-agen pun baru mengalahkan baseline tunggal ketika mencampur model heterogen (arXiv:2502.08788) — saya tidak membantah ini. Intinya adalah bahwa yang penting bukan akurasi individual melainkan korelasi. Bahkan ketika memilih model untuk dimasukkan ke ensemble, ada hasil teori informasi bahwa Anda harus memilih kombinasi yang paling tidak berkorelasi, bukan model terkuat — meski lemah, jika beragam, ia mengalahkan model tunggal terkuat (arXiv:2602.08003). Hanya saja tuas ini berplafon rendah. Korpus internet saling tumpang tindih, dan seperti yang kita lihat tadi, semakin besar model semakin mereka kembali salah bersama-sama (arXiv:2506.07962). Diversitas mengurangi korelasi tetapi tidak membuatnya menjadi 0.

Ketiga, self-consistency yang mengacak jalur penalaran di dalam model yang sama pun memberi keuntungan dengan membuat error permukaan menjadi tidak berkorelasi (GSM8K +17,9pp, arXiv:2203.11171). Tetapi keuntungan itu berhenti di hadapan titik di mana model salah secara sistematis — bias sama yang dipahat oleh data yang sama. Sebanyak apa pun jalur diversifikasi, cara model tidak mengetahui apa yang tidak diketahuinya hanya satu.

Sumber independensi	Prinsip kerja	Batasan
Dekomposisi masalah (input berbeda)	Jika input berbeda, error independen secara struktural	Hanya masalah yang dapat didekomposisi. Berefek buruk pada tugas yang saling bergantung dan butuh koordinasi
Model heterogen (GPT+Claude+Gemini)	Jika bobot berbeda, korelasi↓	Tumpang tindih korpus + semakin besar model, korelasi↑
Diversifikasi jalur penalaran (self-consistency)	Sampling jalur di dalam satu model lalu majority vote	Berhenti di hadapan error sistematis

Kesimpulan sumbu 1: multi-agen bekerja jika independensi dirancang. Dan independensi yang paling pasti datang bukan dari mencari model lain, melainkan dari memecah masalah menjadi potongan-potongan yang independen.

Sumbu 2 — Verifier Memintas Independensi

Tuas ketiga berbeda jenisnya. Sumbu 1 menyelamatkan pemungutan suara dengan mengurangi korelasi error. Verifier memintas korelasi — bahkan jika para agen salah bersama-sama, kriteria eksternal yang tidak terkait dengan error mencegah lolosnya. Ini bukan pemungutan suara, melainkan gerbang. Karena itu, bahkan di tempat di mana independensi tak bisa dijamin, ia bekerja asalkan domainnya dapat diverifikasi.

Diagnosis ini bukan milik saya sendiri. “Consensus is Not Verification” (arXiv:2603.06612) lebih dulu mematok kesimpulan yang sama — agregasi berbasis konsensus tidak memberi keuntungan konsisten dibanding sampel tunggal dan justru memperkuat kesalahpahaman bersama, sedangkan inference-time scaling bekerja pada domain yang dapat diverifikasi (matematika) tetapi gagal pada domain yang tak dapat diverifikasi. Konsensus berhasil di matematika bukan karena ia sinyal kebenaran, melainkan karena verifier menyaring kandidat. Saya menerima diagnosis itu dan melangkah satu langkah lebih jauh — menjadi resep. Sumber independensi terkuat adalah dekomposisi, independensi dan verifikasi bukanlah pesaing melainkan saling melengkapi, dan titik di mana verifier deterministik berbeda dari penilai LLM ada tiga (di bawah).

Namun industri menyerahkan verifikasi ini pun kepada LLM — LLM-as-Judge.

Mari mulai dengan adil. Penilai LLM sering kali bekerja dengan baik. Pada MT-Bench, penilai GPT-4 cocok dengan preferensi manusia di atas 80%, dan ini setara dengan tingkat kesepakatan antarmanusia (arXiv:2306.05685). Untuk evaluasi preferensi yang samar, penilai LLM cukup berguna. Masalahnya adalah di mana ia runtuh.

Penilai runtuh ketika berbagi jebakan yang sama dengan generator. LLM penilai menilai output yang familier baginya (yang perplexity-nya rendah) lebih tinggi daripada manusia (self-preference bias, NeurIPS 2024 WS, arXiv:2410.21819). Jika penilai berbagi distribusi yang sama dengan generator, ia meloloskan halusinasi yang dibuat model yang sama karena “familier.” Alasan tingkat kesepakatan 80% tidak menghibur adalah karena 20% yang salah justru menumpuk di tempat yang generatornya pun salah — yang menjadi masalah bukan akurasi rata-rata melainkan korelasi error. Penilaian goyah bahkan oleh variabel tak terkait seperti posisi penyajian kandidat, bukan jawaban benar (position bias, arXiv:2406.07791).

Satu bukti pendukung. Penilaian LLM goyah bahkan di lapisan hardware. Bahkan dengan input yang sama dan greedy decoding T=0, karena non-asosiativitas floating point dan dynamic batching, hasil berbeda tergantung konfigurasi GPU — pada BF16 akurasi berubah hingga 9pp (arXiv:2506.09501). Ini masalah reproduktibilitas, bukan masalah validitas, jadi tidak saya jadikan argumen utama. Hanya saja, mendudukkan sesuatu yang bahkan tak bisa menjamin jawaban yang sama untuk pertanyaan yang sama di kursi hakim final terasa mengganjal.

Karena itu ada arah sebaliknya. Generator lemah + verifier kuat. Model lemah pun, jika dipasangi verifier yang sama, mendekati model kuat, dan error dari model lemah justru lebih mudah dideteksi (arXiv:2509.17995). Bisa juga menggabungkan beberapa verifier lemah dengan bobot untuk membuat verifier kuat (Weaver, arXiv:2506.18203), atau memurnikan output LLM dengan umpan balik dari formal verifier untuk menjamin konsistensi (AlphaVerus, arXiv:2412.06176). Ini bukan klaim pinggiran — model penalaran dan agen coding yang dilatih dengan imbalan yang dapat diverifikasi adalah area yang paling cepat berkembang saat ini, dan Jason Wei merangkumnya sebagai verifier’s law: sejauh mana AI menjadi kuat sebanding dengan keterverifikasian tugasnya.

Di sini kita harus jujur. Verifier bukan oracle ajaib. Tes bisa terlewat, spesifikasi bisa salah. Lebih tajam lagi — jika verifier ditulis oleh LLM, kritik yang baru saja saya lancarkan pada LLM-as-Judge bangkit kembali apa adanya. Jika generator dan verifier adalah model yang sama, tes yang salah di tempat yang sama akan meloloskan kode yang salah di tempat yang sama. Korelasi error hanya berpindah tempat ke lapisan verifikasi, tidak hilang.

Lalu bagaimana mencegah kebangkitan itu. Menaikkan keandalan verifier dari luar generator. Tiga hal berjalan bersama.

Inspeksi manusia. Kriteria verifikasi (spesifikasi·tes·properti) ditinjau sekali oleh manusia lalu dipatok. Bahkan jika LLM menulis draftnya, kriteria kelulusan ditetapkan oleh manusia yang berada di luar distribusi generator. Biayanya hanya sekali, dan kriteria yang sekali dipatok dipakai ulang tanpa batas — inilah titik perbedaan menentukan dari LLM-as-Judge yang menilai ulang setiap generasi.
Reduksi ke matematika·logika. Sebisa mungkin pindahkan verifikasi ke bentuk yang dapat ditentukan secara mekanis — type check, invarian (invariant), formal verification, properti matematis. Di sini tak ada tempat bagi “penilaian” LLM untuk menyusup. Benar/salah ditentukan oleh aturan, bukan opini model.
Pengujian berulang. Karena error verifier dapat direproduksi, ia membaik secara kumulatif. Jika cakupan diperluas dengan regression test dan property-based testing, lubang yang sekali terlewat oleh verifier diabadikan dalam tes sehingga tak pernah lagi bocor di tempat yang sama. Penilai LLM goyah bahkan pada input yang sama sehingga akumulasi ini mustahil.

Ketiga hal ini membuat verifier menjadi kriteria yang independen dari bias generator. Cara memutus korelasi error juga di lapisan verifikasi adalah memaku verifier bukan di dalam model, melainkan di eksternal berupa manusia·matematika·test suite.

Lalu di mana perbedaan verifier deterministik. Bukan ketiadaan error. Ada tiga. Pertama, kriteria verifikasi berada di luar bobot generator — entah ditulis manusia entah dibuat dengan prosedur lain, Anda bisa mendirikan kriteria yang independen dari bias generator (penilai LLM secara struktural mustahil melakukannya). Kedua, error verifier muncul bukan sebagai halusinasi yang percaya diri, melainkan sebagai kegagalan yang dapat dideteksi dan dapat direproduksi — karena ia memberi penilaian yang sama untuk input yang sama, ia dapat di-debug dan membaik secara kumulatif. Ketiga, kepercayaan berpindah ke permukaan yang kecil dan dapat diaudit (spesifikasi·tes), sehingga sekali ditinjau manusia, ia dipakai ulang tanpa batas. Verifier bukan menjamin akurasi, melainkan kualitas verifier menjadi batas atas akurasi — bukan ukuran generator.

Wawasan Inti

Rumus akurasi multi-agen:

akurasi = f(akurasi individual, independensi error, mekanisme verifikasi)

Industri hanya berinvestasi pada yang pertama (model lebih besar). Yang kedua (independensi) tidak dirancang, dan yang ketiga (verifikasi) diserahkan ke LLM. Dan strategi yang hanya berinvestasi pada yang pertama menabrak paradoks — semakin besar model semakin tinggi korelasi error, sehingga semakin banyak agen lebih pintar dikumpulkan, semakin akrab mereka salah bersama-sama.

Yang kedua dan ketiga adalah tuas sebenarnya. Dan keduanya tidak bersaing. Independensi (sumbu 1) menyelamatkan pemungutan suara, dan verifier (sumbu 2) memotong tempat yang tak terjangkau pemungutan suara. Jika keduanya dimiliki, itu paling kuat.

Sistem riset Anthropic: dekomposisi sumbu 1 sampai ke ekstrem — pecah masalah lalu eksplorasi paralel independen. Peningkatan 90,2% tanpa verifier.
SciencePedia (Tiongkok, 2026): beberapa solver independen menyelesaikan masing-masing (sumbu 1), dan hanya mempertahankan yang jawaban antarmodelnya disepakati (cross-model consensus, arXiv:2510.26854). Hanya saja karena filter akhirnya adalah “konsensus model,” sumbu 2 hanya tertangkap setengah — konsensus bukan verifikasi deterministik. Inilah alasan ia hanya dapat dipercaya ketika dibatasi pada domain yang dapat diverifikasi seperti matematika·logika.
Alasan 8 agen model identik gagal: kedua sumbu absen. Independensi nol, loop verifikasi nol. 8 agen berhenti bersama-sama di satu tempat.
Alasan yongol berhasil bahkan dengan Haiku: implementasi langsung sumbu 2. Meskipun akurasi model rendah, verifier deterministik menyaring di setiap langkah — sejauh kualitas verifier menopang.

Analogi Demokrasi

Sebagaimana demokrasi menjadi pemerintahan massa bodoh jika ia adalah majority vote dari pemilih yang menonton berita yang sama, majority vote dari LLM yang dilatih dengan data yang sama adalah konsensus halusinasi. Jumlah kepala tidak menciptakan kebenaran. Jumlah kepala yang independen-lah yang menciptakannya. Dan di tempat yang tak terjangkau jumlah kepala, kriteria di luar jumlah kepala-lah yang menciptakannya.

Kaitan dengan Evolusi

Intuisi yang sama terbaca pula pada algoritma pembelajaran. Backpropagation membuat arah gradient berkorelasi, sedangkan evolusi menyebarkan mutasi secara independen. Ada laporan bahwa algoritma genetik yang sama sekali tidak memakai gradient menjelajahi ruang solusi yang berbeda dari yang berbasis gradient pada deep reinforcement learning (Deep Neuroevolution, arXiv:1712.06567). Eksplorasi independen menjangkau tempat yang tak bisa dijangkau eksplorasi berkorelasi — prinsip yang kita lihat pada ensemble berbentuk sama pula pada optimisasi. Hanya saja “lebih baik karena independensi” masih interpretasi pasca-fakta — biarkan ia tinggal sebagai hipotesis, bukan bukti.

Kesimpulan

Multi-agen bukan “banyak maka akurat.” Sasaran serangannya bukan multi-agen, melainkan pemungutan suara tanpa independensi. Mengumpulkan N model yang sama lalu majority vote adalah membesarkan paduan suara yang salah bersama-sama.

Resepnya ada dua, dan keduanya sungguhan. Pertama, rancang independensi — jika masalah dipecah menjadi potongan-potongan yang independen (paling pasti), multi-agen bekerja bahkan dengan model yang sama. Kedua, jika domainnya dapat diverifikasi, dirikan verifier di luar LLM — terlepas dari independensi, ia menaikkan batas atas akurasi.

Mari patok ruang lingkupnya dengan jujur. Sumbu verifier (sumbu 2) adalah jawaban hanya pada domain yang dapat diverifikasi — seperti kode, matematika, spesifikasi formal, di mana jawaban benar dapat dipotong oleh kriteria eksternal. Pada area tanpa kriteria semacam itu seperti generasi terbuka·peringkasan·konseling·kreasi·penilaian strategi, sumbu 1, yaitu perancangan independensi, adalah satu-satunya tuas yang tersisa. Tuas yang terkunci bukanlah ukuran model — melainkan independensi error, dan di tempat yang memungkinkan, verifier eksternal.

(Pernyataan konflik kepentingan: saya membuat yongol, sebuah alat yang menjadikan verifier deterministik sebagai keystone. Karena itu hati saya condong ke sumbu verifier. Bacalah argumen di atas dengan memperhitungkan bias itu — jika tulang punggungnya salah, alatnya pun salah.)

Bacaan Pendamping

Don’t Build Multi-Agents — Cognition (pembuat Devin), 2025. Tulisan lapangan klasik yang menegaskan lebih baik tidak membuat multi-agen. Jika konteks terpotong-potong, agen-agen saling bertabrakan — jebakan tugas yang tak bisa didekomposisi. (Bersama lanjutannya Multi-Agents: What’s Actually Working, 2026 juga.)
How we built our multi-agent research system — Anthropic, 2025. Baca berpasangan dengan tulisan di atas. Menunjukkan kondisi di mana multi-agen bekerja — ketika sub-tugas dapat diparalelkan secara independen (dekomposisi sumbu 1) — dengan peningkatan 90,2%.
Asymmetry of verification and verifier’s law — Jason Wei, 2025. “Sejauh mana AI menjadi kuat sebanding dengan keterverifikasian tugasnya.” Tulang punggung teoretis sumbu 2 (generator lemah + verifier kuat).
Hallucinations in code are the least dangerous form of LLM mistakes — Simon Willison, 2025. Kode membongkar halusinasi pada saat dijalankan. Kasus paling intuitif mengapa verifikasi deterministik adalah tuas penentu.
Using LLM-as-a-Judge For Evaluation — Hamel Husain, 2024. Alasan tak boleh mempercayai penilai LLM apa adanya, dan prosedur praktis untuk menskalakannya dengan otomasi hanya setelah di-align dengan manusia.
Defeating Nondeterminism in LLM Inference — Thinking Machines Lab, 2025. Penyebab sebenarnya LLM goyah bahkan pada temperature=0. Dasar infrastruktural mengapa verifier harus ditempatkan di luar model.
The Wisdom of Crowds — kebijaksanaan kerumunan menguap jika diversitas dan independensi runtuh. Pengantar yang mengurai prasyarat independensi Condorcet dengan mudah dalam konteks non-AI.

Gambar sampul: dihasilkan AI (Google Gemini)

Referensi

Condorcet dan teori ensemble

Teorema juri Condorcet (1785) — dua prasyarat konvergensi majority vote: akurasi individual >50%, error independen
Krogh & Vedelsby, Neural Network Ensembles, Cross Validation, and Active Learning (NeurIPS 1994) — dekomposisi ambiguity
Wood et al., A Unified Theory of Diversity in Ensemble Learning (JMLR 2023, arXiv:2301.03962) — dekomposisi bias-variance-diversity

Korelasi error LLM / batas konsensus

Kim et al., Correlated Errors in Large Language Models (ICML 2025, arXiv:2506.07962) — saat dua model salah serentak, 60% jawaban salah identik, semakin besar model korelasi↑
Lefort et al., Examining Independence in Ensemble Sentiment Analysis … Condorcet Jury Theorem (arXiv:2409.00094) — asumsi independensi Condorcet runtuh pada LLM
Denisov-Blanch et al., Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness (2026, arXiv:2603.06612) — agregasi konsensus memperkuat kesalahpahaman bersama, inference-time scaling hanya bekerja pada domain yang dapat diverifikasi (sama dengan diagnosis tulisan ini — dibedakan sebagai resep di badan teks)

Multi-agen: independensi dan dekomposisi

Cemri et al., Why Do Multi-Agent LLM Systems Fail? (UC Berkeley, 2025, arXiv:2503.13657) — analisis 1.600+ trace eksekusi dari 7 framework. Mengklasifikasikan 14 mode kegagalan ke dalam 3 kategori: desain sistem, kegagalan alignment antaragen, verifikasi (task verification)
Smit et al., Should we be going MAD? (ICML 2024, arXiv:2311.17371) — debat tidak secara stabil mengalahkan baseline sederhana
Zhang et al., Stop Overvaluing Multi-Agent Debate (arXiv:2502.08788) — heterogenitas adalah penawarnya (bekerja jika independensi dipulihkan)
Du et al., Improving Factuality and Reasoning through Multiagent Debate (ICML 2024, arXiv:2305.14325) — klaim positif MAD orisinal
Wang et al., Self-Consistency Improves Chain of Thought Reasoning (ICLR 2023, arXiv:2203.11171) — keuntungan diversifikasi jalur
Turkmen et al., Don’t Always Pick the Highest-Performing Model: An Information Theoretic View of LLM Ensemble Selection (2026, arXiv:2602.08003) — kriteria pemilihan ensemble bukan performa individual melainkan korelasi↓ (maksimalkan mutual information). Meski lemah, jika beragam, menang

Keandalan LLM-as-Judge

Zheng et al., Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena (NeurIPS 2023, arXiv:2306.05685) — penilai GPT-4 cocok 80%+ dengan manusia (bukti positif)
Wataoka et al., Self-Preference Bias in LLM-as-a-Judge (NeurIPS 2024 WS, arXiv:2410.21819)
Shi et al., Judging the Judges: Position Bias in LLM-as-a-Judge (arXiv:2406.07791)
Numerical Sources of Nondeterminism in LLM Inference (arXiv:2506.09501) — output goyah bahkan pada T=0

Generator lemah + verifier kuat

Saad-Falcon et al., Shrinking the Generation-Verification Gap with Weak Verifiers (Weaver, arXiv:2506.18203)
Aggarwal et al., AlphaVerus: Formally Verified Code Generation (arXiv:2412.06176)
Variation in Verification: Understanding Verification Dynamics in LLMs (arXiv:2509.17995)

Kasus generasi yang dapat diverifikasi

SciencePedia (DP Technology / DeepModeling, 2026) — Inverse Knowledge Search over Verifiable Reasoning (arXiv:2510.26854). Solver independen + filter cross-model consensus

Evolusi vs gradient

Such et al., Deep Neuroevolution (arXiv:1712.06567) — GA menjelajahi ruang solusi berbeda dari gradient

Pengukuran primer (penulis sendiri)

ZenFlow / Grok Build: 8 concurrent agents, 3 dari 10 endpoint tidak selesai (tidak lolos validate)
ZenFlow / yongol: Haiku tuntas, Sonnet 131 menit, Opus 76 menit

Changelog

2026-06-02: Rilis awal