
문제
“에이전트를 여러 개 돌리면 정확해진다"는 직관이 있다. 절반만 맞다.
정확히 겨눠야 할 건 멀티 에이전트 자체가 아니라 독립성 없이 투표하는 멀티 에이전트다. 같은 모델, 같은 데이터, 같은 정렬로 만든 에이전트를 N개 돌려 다수결하면 — 더 정확해지지 않는다. 같이 틀린다.
- LLM 앙상블 감성분석 실측: 더 크고 정확한 모델을 추가해도 이득이 미미했다. 콩도르세 정리가 전제한 독립성이 깨져 있었기 때문이다(arXiv:2409.00094).
- 멀티에이전트 토론(MAD): 토론을 붙여도 단일 에이전트의 self-consistency를 안정적으로 이기지 못한다(ICML 2024, arXiv:2311.17371).
- 내 일화적 관찰(표본 1, 통제 없음): ZenFlow 과제에서 Grok Build를 8개 동시 에이전트로 돌리자 10개 엔드포인트 중 3개에서 멈췄고 validate를 통과하지 못했다. 일화일 뿐이니 위 두 연구만큼 무게를 싣지는 말자.
다수결은 마법이 아니다. 콩도르세 배심원 정리가 200년 전에 전제조건을 명시했다. 그리고 그 전제를 충족하면 멀티 에이전트는 실제로 작동한다. 이 글은 그 전제가 무엇이고 어떻게 충족하는가에 관한 것이다.
콩도르세의 두 전제
1785년, 콩도르세는 다수결이 진실에 수렴하는 조건을 식으로 박았다.
- 각 투표자의 정확도 > 50%
- 투표자 간 오류가 독립적
(엄밀히는 세 번째, 모두 같은 정확도라는 균일성 전제도 있다. 단순화를 위해 접어둔다.)
2번이 핵심이다. 같은 학습 데이터, 같은 아키텍처, 같은 RLHF로 정렬된 모델들은 같은 곳에서 틀린다. 투표하면 “같이 틀린 답"이 다수가 된다.
이건 직관만이 아니다. 350개 이상의 LLM을 분석한 한 연구는, 두 모델이 동시에 틀릴 때 60% 확률로 똑같은 오답에 수렴한다고 보고한다(ICML 2025, arXiv:2506.07962). 같은 연구에서 더 큰 역설도 관찰됐다 — 모델이 더 크고 정확할수록 오류 상관이 더 높아졌다. 아키텍처가 달라도 그랬다. (단일 대규모 분석이고 광범위한 재현은 아직이다. 그래도 방향만은 콩도르세가 예고한 그대로다.)
상관된 오류의 수학
오류가 독립이면 앙상블은 오답을 깎는다. 상관되면 깎을 게 없다.
- 독립일 때: P(둘 다 틀림) = 0.1 × 0.1 = 0.01
- 완전 상관일 때: P(둘 다 틀림) ≈ 0.1 (한쪽이 틀리면 다른 쪽도 틀림)
이 직관은 30년 된 정리에 뿌리를 둔다. Krogh와 Vedelsby의 ambiguity 분해(NeurIPS 1994): 앙상블 오차 = 평균 멤버 오차 − 앙상블 다양성. 멤버 오류가 상관될수록 다양성 항이 0으로 수렴하고, 모델을 아무리 더해도 이득이 사라진다. 2023년 JMLR의 통합 이론은 이를 일반화했다 — 다양성은 별도 손잡이가 아니라 bias-variance 분해 안에 숨어 있는 차원이다(arXiv:2301.03962).
정리하면:
- 앙상블이 정확도를 높이는 조건: 오류 상관이 낮을수록 이득이 크다 (음의 상관에서 최대).
- 앙상블 이득이 0으로 수렴하는 조건: 오류 상관 → 1 (같은 데이터, 같은 편향).
투표의 형태도 중요하다. 다수결(majority)은 독립이면 콩도르세대로 정확도를 끌어올린다. 하지만 “전원이 통과시켜야 한다"는 합의(unanimity, AND 게이트)로 묶으면 정확도는 곱으로 무너진다 — 분류기 정확도가 0.977이고 n개를 전원일치로 묶으면 0.977ⁿ. 게이트를 잘못 설계하면, 더 많은 에이전트가 더 낮은 정확도를 만든다.
여기까지가 진단이다. 이제 처방은 두 갈래로 갈린다 — 오류 상관을 줄이거나(축 1), 우회하거나(축 2).
축 1 — 독립성을 확보하면 멀티 에이전트는 작동한다
분명히 하자. 멀티 에이전트가 틀린 게 아니다. 독립성 없는 투표가 틀린 거다. 콩도르세 2번 전제를 충족시키면 — 에이전트들의 오류를 비상관으로 만들면 — 다수결은 약속대로 정확도를 끌어올린다. 독립성을 만드는 길은 둘이다.
(가) 문제를 쪼갠다 — 가장 강력하다.
에이전트들에게 같은 문제를 주고 투표시키지 말고, 다른 하위 문제를 주라. 입력이 다르면 오류가 구조적으로 독립이 된다 — 같은 모델이어도. 다른 문서를 읽는 두 에이전트는 같은 곳에서 틀릴 수가 없다. 서로 다른 곳을 보고 있으니까.
Anthropic의 멀티에이전트 리서치 시스템이 단일 에이전트 대비 90.2% 향상을 보고한 게 정확히 이 원리다. 리드 에이전트가 문제를 쪼개 병렬 서브에이전트에 분배하고, 각자 독립적으로 탐색한 결과를 합친다. 검증기는 필요 없었다. 분해가 독립성을 공짜로 만들었으니까.
단, 조건이 있다. 분해 가능한 문제여야 한다. 하위 작업들이 서로 의존하고 끊임없이 조율해야 하는 작업 — 한 덩어리 코드를 여럿이 동시에 고치기 같은 — 에서는 병렬 서브에이전트가 오히려 충돌한다. 컨텍스트가 분절되어 서로 모순된 결정을 내린다(Cognition, “Don’t Build Multi-Agents”). 분해의 독립성은 하위 문제가 진짜로 독립일 때만 공짜다.
(나) 모델을 이질화한다 — 작동하지만 천장이 있다.
같은 문제라도 서로 다른 모델(GPT·Claude·Gemini)에게 풀게 하면 가중치가 다르니 오류 상관이 떨어진다. 멀티에이전트 토론도 이질적 모델을 섞으면 비로소 단일 베이스라인을 이긴다(arXiv:2502.08788) — 나는 이를 반박하지 않는다. 핵심은 개별 정확도가 아니라 상관이라는 점이다. 앙상블에 넣을 모델을 고를 때조차 가장 강한 모델이 아니라 가장 덜 상관된 조합을 골라야 한다는 정보이론적 결과가 있다 — 약해도 다양하면 가장 센 단일 모델을 이긴다(arXiv:2602.08003). 다만 이 손잡이엔 천장이 낮다. 인터넷 코퍼스는 겹치고, 앞서 봤듯 큰 모델일수록 다시 같이 틀린다(arXiv:2506.07962). 다양성은 상관을 줄이지만 0으로 만들지는 못한다.
세 번째로, 같은 모델 안에서 추론 경로를 흩뜨리는 self-consistency도 표면 오류를 비상관화해 이득을 낸다(GSM8K +17.9pp, arXiv:2203.11171). 하지만 그 이득은 모델이 체계적으로 틀리는 지점 — 같은 데이터가 새긴 같은 편향 — 앞에서 멈춘다. 경로를 아무리 다양화해도, 모델이 모르는 것을 모르는 방식은 하나다.
| 독립성 원천 | 작동 원리 | 한계 |
|---|---|---|
| 문제 분해 (다른 입력) | 입력이 다르면 오류가 구조적으로 독립 | 분해 가능한 문제만. 의존적·조율 필요 작업엔 역효과 |
| 이질 모델 (GPT+Claude+Gemini) | 가중치가 다르면 상관↓ | 코퍼스 중복 + 큰 모델일수록 상관↑ |
| 추론 경로 다양화 (self-consistency) | 한 모델 안에서 경로 샘플링 후 다수결 | 체계적 오류 앞에서 멈춤 |
축 1의 결론: 멀티 에이전트는 독립성을 설계하면 작동한다. 그리고 가장 확실한 독립성은 다른 모델을 구하는 게 아니라, 문제를 독립적인 조각으로 쪼개는 데서 나온다.
축 2 — 검증기는 독립성을 우회한다
세 번째 손잡이는 종류가 다르다. 축 1은 오류 상관을 줄여서 투표를 살린다. 검증기는 상관을 우회한다 — 에이전트들이 다 같이 틀려도, 오류와 무관한 외부 기준이 통과를 막는다. 투표가 아니라 게이트다. 그래서 독립성을 확보할 수 없는 곳에서도, 검증 가능한 도메인이기만 하면 작동한다.
이 진단은 나만의 것이 아니다. “Consensus is Not Verification”(arXiv:2603.06612)은 같은 결론을 먼저 못박았다 — 합의 기반 집계는 단일 샘플 대비 일관된 이득이 없고 공유된 오해를 증폭하며, 추론시간 스케일링은 검증 가능한 도메인(수학)에선 작동하지만 비검증 도메인에선 실패한다. 합의가 진실 신호라서 수학에서 먹히는 게 아니라, 검증기가 후보를 걸러서 먹히는 것이다. 나는 그 진단을 받아들이고 한 걸음 더 간다 — 처방으로. 독립성의 최강 원천은 분해이고, 독립성과 검증은 경쟁이 아니라 보완이며, 결정론적 검증기가 LLM 판정자와 갈리는 지점은 셋이다(아래).
그런데 업계는 이 검증마저 LLM에 맡긴다 — LLM-as-Judge.
공정하게 시작하자. LLM 판정자는 자주 잘 작동한다. MT-Bench에서 GPT-4 판정자는 인간 선호와 80% 넘게 일치했고, 이는 사람끼리의 일치율과 같은 수준이다(arXiv:2306.05685). 막연한 선호 평가라면 LLM 판정자는 쓸 만하다. 문제는 어디서 깨지느냐다.
판정자는 생성자와 같은 함정을 공유할 때 깨진다. 판정 LLM은 자기에게 익숙한(perplexity가 낮은) 출력을 사람보다 높게 평가한다(self-preference bias, NeurIPS 2024 WS, arXiv:2410.21819). 판정자가 생성자와 같은 분포를 공유하면, 같은 모델이 만든 환각을 “익숙하니까” 통과시킨다. 80% 일치율이 위안이 안 되는 건, 틀리는 20%가 하필 생성자도 틀린 곳에 몰리기 때문이다 — 평균 정확도가 아니라 오류 상관이 문제다. 판정은 정답이 아니라 후보의 제시 위치 같은 무관한 변수에도 흔들린다(position bias, arXiv:2406.07791).
보조 근거 하나. LLM 판정은 하드웨어 층에서도 흔들린다. 같은 입력, T=0 greedy decoding조차 부동소수점 비결합성과 동적 배칭 때문에 GPU 구성에 따라 결과가 갈린다 — BF16에서 정확도가 최대 9pp까지 변했다(arXiv:2506.09501). 이건 재현성 문제지 타당성 문제는 아니니 주논거로 삼진 않는다. 다만 같은 질문에 같은 답조차 보장 못 하는 것을 최종 심판석에 앉히기엔 꺼림칙하다는 정도다.
그래서 반대 방향이 있다. 약한 생성자 + 강한 검증기. 약한 모델도 같은 검증기를 붙이면 강한 모델에 근접하고, 약한 모델의 오류가 오히려 검출하기 쉽다(arXiv:2509.17995). 여러 약한 검증자를 가중 결합해 강한 검증자를 만들 수도 있고(Weaver, arXiv:2506.18203), formal verifier의 피드백으로 LLM 출력을 정제해 정합성을 보장할 수도 있다(AlphaVerus, arXiv:2412.06176). 이건 변두리 주장이 아니다 — 검증 가능한 보상으로 학습하는 추론 모델과 코딩 에이전트가 지금 가장 빠르게 발전하는 영역이고, Jason Wei는 이를 verifier’s law로 정리했다: AI가 강해지는 정도는 과제의 검증가능성에 비례한다.
여기서 정직해야 한다. 검증기는 마법 오라클이 아니다. 테스트는 빠질 수 있고, 명세는 틀릴 수 있다. 더 날카롭게는 — 검증기를 LLM이 작성하면, 내가 방금 LLM-as-Judge에 가한 비판이 그대로 부활한다. 생성자와 검증자가 같은 모델이면 같은 곳에서 틀린 테스트가 같은 곳에서 틀린 코드를 통과시킨다. 오류 상관은 검증 레이어로 자리만 옮길 뿐 사라지지 않는다.
그렇다면 부활을 막는 법은. 검증기의 신뢰성을 생성자 바깥에서 끌어올리는 것이다. 세 가지가 함께 간다.
- 인간 검수. 검증 기준(명세·테스트·속성)을 사람이 한 번 검토해 고정한다. LLM이 초안을 써도 통과 기준은 생성자 분포 밖에 있는 사람이 확정한다. 비용은 한 번뿐이고, 한 번 고정된 기준은 무한히 재사용된다 — 생성마다 다시 판단하는 LLM-as-Judge와 결정적으로 다른 지점이다.
- 수학·논리로의 환원. 가능한 한 검증을 기계적으로 결정 가능한 형태로 옮긴다 — 타입 체크, 불변식(invariant), 형식 증명, 수학적 속성. 여기엔 LLM의 “판단"이 끼어들 자리가 없다. 참/거짓이 모델 의견이 아니라 규칙으로 갈린다.
- 반복 테스트. 검증기의 오류는 재현 가능하므로 누적 개선된다. 회귀 테스트와 속성 기반 테스트(property-based testing)로 커버리지를 넓히면, 검증기가 한 번 놓친 구멍은 테스트로 박제되어 다시는 같은 곳에서 새지 않는다. LLM 판정자는 같은 입력에도 흔들려 이 누적이 불가능하다.
이 셋이 검증기를 생성자의 편향과 독립인 기준으로 만든다. 오류 상관을 검증 레이어에서도 끊는 방법은, 검증기를 모델 안이 아니라 사람·수학·테스트 스위트라는 외부에 못박는 것이다.
그렇다면 결정론적 검증기의 차이는 어디 있나. 무오류가 아니다. 셋이다. 첫째, 검증 기준이 생성자의 가중치 바깥에 있다 — 사람이 쓰든 다른 절차로 만들든, 생성자의 편향과 독립인 기준을 세울 수 있다(LLM 판정자는 구조상 불가능하다). 둘째, 검증기의 오류는 자신만만한 환각이 아니라 검출 가능하고 재현 가능한 실패로 드러난다 — 같은 입력에 같은 판정을 주므로 디버깅되고 누적 개선된다. 셋째, 신뢰가 작고 감사 가능한 표면(명세·테스트)으로 옮겨가, 사람이 한 번 검토하면 무한히 재사용된다. 검증기가 정확도를 보장하는 게 아니라, 검증기의 품질이 곧 정확도의 상한이 된다 — 생성자 크기가 아니라.
핵심 통찰
멀티 에이전트의 정확도 공식:
정확도 = f(개별 정확도, 오류 독립성, 검증 메커니즘)
업계는 첫 번째(더 큰 모델)에만 투자한다. 두 번째(독립성)는 설계하지 않고, 세 번째(검증)는 LLM에 맡긴다. 그리고 첫 번째에만 투자하는 전략은 역설에 부딪힌다 — 모델이 커질수록 오류 상관이 높아지므로, 더 똑똑한 에이전트를 더 많이 모을수록 더 사이좋게 같이 틀린다.
두 번째와 세 번째가 진짜 손잡이다. 그리고 둘은 경쟁하지 않는다. 독립성(축 1)은 투표를 살리고, 검증기(축 2)는 투표가 못 닿는 곳을 자른다. 둘 다 갖추면 가장 강하다.
- Anthropic 리서치 시스템: 축 1의 분해를 극단까지 — 문제를 쪼개 독립 병렬 탐색. 검증기 없이 90.2% 향상.
- SciencePedia(중국, 2026): 독립적인 여러 solver가 각자 풀고(축 1), 모델 간 답이 합의된 것만 보존한다(cross-model consensus, arXiv:2510.26854). 다만 최종 필터가 “모델 합의"라 축 2는 절반만 잡았다 — 합의는 결정론적 검증이 아니다. 수학·논리처럼 검증 가능한 도메인에 한정될 때만 신뢰할 수 있는 이유다.
- 동일 모델 8 에이전트가 실패하는 이유: 두 축 모두 부재. 독립성 제로, 검증 루프 제로. 8개가 한 곳에서 같이 멈춘다.
- yongol이 하이쿠로도 되는 이유: 축 2의 직접 구현. 모델 정확도가 낮아도 결정론적 검증기가 매 단계 필터링한다 — 검증기 품질이 받쳐주는 한.
민주주의 비유
민주주의가 같은 뉴스를 본 유권자의 다수결이면 중우정치가 되듯, 같은 데이터로 학습한 LLM의 다수결은 환각의 합의다. 머릿수가 진실을 만들지 않는다. 독립적인 머릿수가 만든다. 그리고 머릿수가 닿지 않는 곳에선, 머릿수 밖의 기준이 만든다.
진화와의 연결
같은 직관이 학습 알고리즘에서도 읽힌다. 역전파는 gradient 방향이 상관되고, 진화는 돌연변이가 독립적으로 흩어진다. gradient를 전혀 쓰지 않는 유전 알고리즘이 심층 강화학습에서 gradient 기반과 다른 해 공간을 탐색한다는 보고가 있다(Deep Neuroevolution, arXiv:1712.06567). 독립적인 탐색이 상관된 탐색이 못 가는 곳에 닿는다 — 앙상블에서 본 원리가 최적화에서도 같은 모양이다. 다만 “독립성 때문에 더 낫다"는 아직 사후 해석이다 — 증명이 아니라 가설로 남겨둔다.
결론
멀티 에이전트는 “많으면 정확하다"가 아니다. 공격 대상은 멀티 에이전트가 아니라 독립성 없는 투표다. 같은 모델을 N개 모아 다수결하는 건 같이 틀리는 합창단을 키우는 일이다.
처방은 둘이고, 둘 다 진짜다. 첫째, 독립성을 설계하라 — 문제를 독립적인 조각으로 쪼개면(가장 확실하다) 같은 모델로도 멀티 에이전트가 작동한다. 둘째, 검증 가능한 도메인이라면 LLM 바깥에 검증기를 세워라 — 독립성과 무관하게 정확도의 상한을 올린다.
스코프를 정직하게 못 박자. 검증기 축(축 2)은 검증 가능한 도메인에서만 답이다 — 코드, 수학, 형식 명세처럼 정답을 외부 기준으로 잘라낼 수 있는 곳. 개방형 생성·요약·상담·창작·전략 판단처럼 그런 기준이 없는 영역에서는 축 1, 즉 독립성 설계가 유일하게 남는 손잡이다. 잠긴 손잡이는 모델 크기가 아니라 — 오류의 독립성과, 가능한 곳에서는 외부 검증기다.
(이해상충 고지: 나는 결정론적 검증기를 키스톤으로 삼는 도구 yongol을 만든다. 그래서 검증기 축에 마음이 기운다. 위 논증을 그 편향까지 감안해서 읽어달라 — 척추가 틀렸다면 도구도 틀린 것이다.)
참고
콩도르세와 앙상블 이론
- 콩도르세 배심원 정리 (1785) — 다수결 수렴의 두 전제: 개별 정확도 >50%, 오류 독립
- Krogh & Vedelsby, Neural Network Ensembles, Cross Validation, and Active Learning (NeurIPS 1994) — ambiguity 분해
- Wood et al., A Unified Theory of Diversity in Ensemble Learning (JMLR 2023, arXiv:2301.03962) — bias-variance-diversity 분해
LLM 오류 상관 / 합의의 한계
- Kim et al., Correlated Errors in Large Language Models (ICML 2025, arXiv:2506.07962) — 두 모델 동시 오답 시 60% 동일 오답, 큰 모델일수록 상관↑
- Lefort et al., Examining Independence in Ensemble Sentiment Analysis … Condorcet Jury Theorem (arXiv:2409.00094) — 콩도르세 독립성 가정이 LLM에서 깨짐
- Denisov-Blanch et al., Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness (2026, arXiv:2603.06612) — 합의 집계는 공유된 오해를 증폭, 검증 가능 도메인에서만 추론시간 스케일링이 작동 (이 글의 진단과 동일 — 본문에서 처방으로 차별화)
멀티에이전트: 독립성과 분해
- Cemri et al., Why Do Multi-Agent LLM Systems Fail? (UC Berkeley, 2025, arXiv:2503.13657) — 7개 프레임워크 1,600+ 실행 트레이스 분석. 실패 14모드를 3범주로 분류: 시스템 설계, 에이전트 간 정렬 실패, 검증(task verification)
- Smit et al., Should we be going MAD? (ICML 2024, arXiv:2311.17371) — 토론이 단순 베이스라인을 안정적으로 못 이김
- Zhang et al., Stop Overvaluing Multi-Agent Debate (arXiv:2502.08788) — 이질성이 해독제 (독립성 회복하면 작동)
- Du et al., Improving Factuality and Reasoning through Multiagent Debate (ICML 2024, arXiv:2305.14325) — MAD 원조 긍정 주장
- Wang et al., Self-Consistency Improves Chain of Thought Reasoning (ICLR 2023, arXiv:2203.11171) — 경로 다양화의 이득
- Turkmen et al., Don’t Always Pick the Highest-Performing Model: An Information Theoretic View of LLM Ensemble Selection (2026, arXiv:2602.08003) — 앙상블 선택 기준은 개별 성능이 아니라 상관↓(상호정보 최대화). 약해도 다양하면 이김
LLM-as-Judge 신뢰성
- Zheng et al., Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena (NeurIPS 2023, arXiv:2306.05685) — GPT-4 판정자가 인간과 80%+ 일치 (긍정 증거)
- Wataoka et al., Self-Preference Bias in LLM-as-a-Judge (NeurIPS 2024 WS, arXiv:2410.21819)
- Shi et al., Judging the Judges: Position Bias in LLM-as-a-Judge (arXiv:2406.07791)
- Numerical Sources of Nondeterminism in LLM Inference (arXiv:2506.09501) — T=0에서도 출력 흔들림
약한 생성자 + 강한 검증기
- Saad-Falcon et al., Shrinking the Generation-Verification Gap with Weak Verifiers (Weaver, arXiv:2506.18203)
- Aggarwal et al., AlphaVerus: Formally Verified Code Generation (arXiv:2412.06176)
- Variation in Verification: Understanding Verification Dynamics in LLMs (arXiv:2509.17995)
검증 가능한 생성 사례
- SciencePedia (DP Technology / DeepModeling, 2026) — Inverse Knowledge Search over Verifiable Reasoning (arXiv:2510.26854). 독립 solver + cross-model consensus 필터
진화 vs gradient
- Such et al., Deep Neuroevolution (arXiv:1712.06567) — GA가 gradient와 다른 해 공간 탐색
1차 실측 (저자 본인)
- ZenFlow / Grok Build: 8 concurrent agents, 10개 중 3개 엔드포인트 미완 (validate 미통과)
- ZenFlow / yongol: Haiku 완주, Sonnet 131분, Opus 76분
같이 읽을 거리
- Don’t Build Multi-Agents — Cognition (Devin 제작사), 2025. 멀티에이전트를 만들지 않는 게 낫다고 단언한 현장 명문. 컨텍스트가 분절되면 에이전트들이 서로 충돌한다 — 분해가 안 되는 작업의 함정. (후속편 Multi-Agents: What’s Actually Working, 2026도 함께.)
- How we built our multi-agent research system — Anthropic, 2025. 위 글과 짝으로 읽기. 멀티에이전트가 작동하는 조건 — 하위작업이 독립적으로 병렬화될 때(축 1의 분해) — 을 90.2% 향상으로 보여준다.
- Asymmetry of verification and verifier’s law — Jason Wei, 2025. “AI가 강해지는 정도는 그 과제의 검증가능성에 비례한다.” 축 2(약한 생성자 + 강한 검증기)의 이론적 척추.
- Hallucinations in code are the least dangerous form of LLM mistakes — Simon Willison, 2025. 코드는 실행하는 순간 환각이 들통난다. 결정론적 검증이 왜 결정적 레버인지의 가장 직관적인 사례.
- Using LLM-as-a-Judge For Evaluation — Hamel Husain, 2024. LLM 판정자를 그대로 믿으면 안 되는 이유와, 인간과 정렬한 뒤에야 자동화로 스케일하는 실무 절차.
- Defeating Nondeterminism in LLM Inference — Thinking Machines Lab, 2025. temperature=0에서도 LLM이 흔들리는 진짜 원인. 검증기를 모델 밖에 둬야 하는 인프라적 근거.
- The Wisdom of Crowds — 군중의 지혜는 다양성과 독립성이 무너지면 증발한다. 콩도르세의 독립성 전제를 비-AI 맥락으로 쉽게 풀어쓴 도입.
- 대표 이미지: AI 생성 (Google Gemini)