התנאים המוקדמים לשיפור הדיוק של סוכני LLM מרובים

התנאים המוקדמים לשיפור הדיוק של סוכני LLM מרובים Image: AI generated

הבעיה

קיימת אינטואיציה שאומרת “להריץ הרבה סוכנים הופך את התוצאה למדויקת יותר”. זה נכון רק חצי.

מה שצריך לכוון אליו במדויק אינו המערכת מרובת הסוכנים עצמה, אלא מערכת מרובת סוכנים שמצביעה ללא אי-תלות. אם תריץ N סוכנים שנבנו מאותו מודל, אותם נתונים, אותה התאמה (alignment), ותכריע ברוב קולות — לא תקבל תוצאה מדויקת יותר. הם טועים יחד.

מדידה אמפירית של ניתוח רגשות באמצעות LLM ensemble: גם הוספת מודל גדול ומדויק יותר הניבה רווח זניח. הסיבה היא שאי-התלות שמשפט Condorcet מניח כתנאי מוקדם הופרה (arXiv:2409.00094).
דיון רב-סוכני (MAD): גם כשמעמתים סוכנים בדיון, זה אינו מנצח באופן יציב את ה-self-consistency של סוכן בודד (ICML 2024, arXiv:2311.17371).
תצפית אנקדוטלית שלי (מדגם 1, ללא בקרה): במשימת ZenFlow, כשהרצתי את Grok Build כשמונה סוכנים במקביל, זה נתקע ב-3 מתוך 10 endpoints ולא עבר את ה-validate. זו רק אנקדוטה, אז אל נעניק לה אותו משקל כמו לשני המחקרים שלמעלה.

הכרעת רוב אינה קסם. משפט חבר המושבעים של Condorcet כבר ניסח את התנאים המוקדמים לפני 200 שנה. וכאשר התנאים האלה מתקיימים, מערכת מרובת סוכנים אכן עובדת. המאמר הזה עוסק במה הם התנאים האלה וכיצד מקיימים אותם.

שני התנאים של Condorcet

ב-1785, Condorcet קיבע בנוסחה את התנאים שבהם הכרעת רוב מתכנסת אל האמת.

הדיוק של כל מצביע > 50%
השגיאות בין המצביעים בלתי-תלויות זו בזו

(באופן מדויק יש גם תנאי שלישי — תנאי האחידות, שלכולם יש אותו דיוק. לשם הפשטה נשים אותו בצד.)

תנאי 2 הוא הליבה. מודלים שאומנו על אותם נתוני אימון, אותה ארכיטקטורה, אותה התאמת RLHF — טועים באותם מקומות. כשמצביעים, “התשובה השגויה המשותפת” הופכת לרוב.

זו אינה רק אינטואיציה. מחקר שניתח יותר מ-350 מודלי LLM מדווח שכששני מודלים טועים בו-זמנית, ב-60% מהמקרים הם מתכנסים אל אותה תשובה שגויה בדיוק (ICML 2025, arXiv:2506.07962). באותו מחקר נצפה פרדוקס גדול עוד יותר — ככל שהמודל גדול ומדויק יותר, מתאם השגיאות גבוה יותר. זה קרה גם כשהארכיטקטורה הייתה שונה. (מדובר בניתוח יחיד בקנה מידה גדול, ושחזור רחב עדיין חסר. ובכל זאת, הכיוון בדיוק כפי שניבא Condorcet.)

המתמטיקה של שגיאות מתואמות

אם השגיאות בלתי-תלויות, ה-ensemble מקצץ את התשובות השגויות. אם הן מתואמות, אין מה לקצץ.

כשבלתי-תלויות: P(שניהם טועים) = 0.1 × 0.1 = 0.01
כשמתואמות לחלוטין: P(שניהם טועים) ≈ 0.1 (אם אחד טועה, גם השני טועה)

האינטואיציה הזו מושרשת במשפט בן 30 שנה. פירוק ה-ambiguity של Krogh ו-Vedelsby (NeurIPS 1994): שגיאת ה-ensemble = שגיאת חבר ממוצעת − גיוון ה-ensemble. ככל ששגיאות החברים מתואמות יותר, איבר הגיוון מתכנס לאפס, וכמה שלא נוסיף מודלים — הרווח נעלם. תיאוריה מאוחדת של JMLR מ-2023 הכלילה זאת — הגיוון אינו ידית נפרדת, אלא ממד החבוי בתוך פירוק bias-variance (arXiv:2301.03962).

לסיכום:

התנאי שבו ה-ensemble מעלה את הדיוק: ככל שמתאם השגיאות נמוך יותר, הרווח גדול יותר (מקסימלי במתאם שלילי).
התנאי שבו רווח ה-ensemble מתכנס לאפס: מתאם השגיאות → 1 (אותם נתונים, אותה הטיה).

גם צורת ההצבעה חשובה. הכרעת רוב (majority), אם בלתי-תלויה, מעלה את הדיוק בדיוק כפי ש-Condorcet אומר. אבל אם כובלים אותה להסכמה ש"כולם חייבים לאשר" (unanimity, שער AND), הדיוק קורס בכפל — אם דיוק המסווג הוא 0.977 וכובלים n מהם בהסכמה פה אחד, התוצאה היא 0.977ⁿ. אם מתכננים את השער לא נכון, יותר סוכנים יוצרים דיוק נמוך יותר.

עד כאן האבחנה. כעת הריפוי מתפצל לשני נתיבים — לצמצם את מתאם השגיאות (ציר 1), או לעקוף אותו (ציר 2).

ציר 1 — אם משיגים אי-תלות, מערכת מרובת סוכנים עובדת

הבה נבהיר. לא המערכת מרובת הסוכנים שגויה. ההצבעה ללא אי-תלות היא השגויה. אם מקיימים את תנאי 2 של Condorcet — אם הופכים את שגיאות הסוכנים לבלתי-מתואמות — הכרעת הרוב מעלה את הדיוק כפי שהבטיחה. שני הנתיבים ליצירת אי-תלות הם:

(א) מפצלים את הבעיה — החזק ביותר.

אל תיתן לסוכנים את אותה בעיה ותכריח אותם להצביע, אלא תן לכל אחד תת-בעיה שונה. אם הקלט שונה, השגיאות הופכות בלתי-תלויות באופן מבני — גם אם זה אותו מודל. שני סוכנים שקוראים מסמכים שונים אינם יכולים לטעות באותו מקום. כי כל אחד מסתכל על מקום אחר.

מערכת המחקר מרובת הסוכנים של Anthropic דיווחה על שיפור של 90.2% לעומת סוכן בודד — וזה בדיוק העיקרון הזה. סוכן מוביל מפצל את הבעיה ומחלק אותה לתת-סוכנים מקבילים, וכל אחד חוקר באופן בלתי-תלוי, ואז התוצאות מאוחדות. לא היה צורך ב-verifier. הפיצול יצר אי-תלות בחינם.

אבל יש תנאי. הבעיה חייבת להיות ניתנת לפיצול. במשימות שבהן תת-המשימות תלויות זו בזו וצריכות תיאום בלתי-פוסק — כמו תיקון של גוש קוד אחד בידי כמה סוכנים בו-זמנית — תת-הסוכנים המקבילים דווקא מתנגשים. ההקשר מתפצל, והם מקבלים החלטות סותרות זו את זו (Cognition, “Don’t Build Multi-Agents”). אי-התלות שבפיצול היא בחינם רק כשתת-הבעיות באמת בלתי-תלויות.

(ב) מגוונים את המודלים — עובד, אבל יש תקרה.

גם עבור אותה בעיה, אם נותנים אותה לפתרון על ידי מודלים שונים (GPT·Claude·Gemini), המשקלים שונים ולכן מתאם השגיאות יורד. גם דיון רב-סוכני, כשמערבבים בו מודלים הטרוגניים, מנצח לבסוף את ה-baseline היחיד (arXiv:2502.08788) — אינני חולק על כך. הליבה היא שמה שחשוב אינו הדיוק הפרטני אלא המתאם. יש תוצאה תאורטית-אינפורמטיבית שאומרת שגם בבחירת מודלים ל-ensemble צריך לבחור לא את המודל החזק ביותר אלא את הצירוף הכי פחות מתואם — גם אם חלש, אם הוא מגוון הוא מנצח את המודל הבודד החזק ביותר (arXiv:2602.08003). אלא שלידית הזו יש תקרה נמוכה. קורפוס האינטרנט חופף, וכפי שראינו, ככל שהמודל גדול יותר הם שוב טועים יחד (arXiv:2506.07962). הגיוון מצמצם את המתאם אך אינו מאפס אותו.

שלישית, גם self-consistency — הפיזור של נתיבי ההיסק בתוך אותו מודל — מניב רווח על ידי דה-קורלציה של שגיאות שטח (GSM8K +17.9pp, arXiv:2203.11171). אבל הרווח הזה נעצר לפני הנקודה שבה המודל טועה באופן שיטתי — אותה הטיה שאותם נתונים חרטו בו. ולא משנה כמה נגוון את הנתיבים, הדרך שבה המודל אינו יודע את מה שאינו יודע היא אחת.

מקור אי-התלות	עקרון הפעולה	מגבלה
פיצול הבעיה (קלט שונה)	אם הקלט שונה, השגיאות בלתי-תלויות באופן מבני	רק בעיות ניתנות לפיצול. במשימות תלויות וצורכות-תיאום — אפקט הפוך
מודלים הטרוגניים (GPT+Claude+Gemini)	אם המשקלים שונים, המתאם↓	חפיפת קורפוס + ככל שהמודל גדול יותר, המתאם↑
גיוון נתיבי ההיסק (self-consistency)	דגימת נתיבים בתוך מודל אחד ואז הכרעת רוב	נעצר לפני שגיאה שיטתית

מסקנת ציר 1: מערכת מרובת סוכנים עובדת אם מתכננים אי-תלות. ואי-התלות הוודאית ביותר אינה באה מהשגת מודל אחר, אלא מפיצול הבעיה לחלקים בלתי-תלויים.

ציר 2 — verifier עוקף את אי-התלות

הידית השלישית היא מסוג שונה. ציר 1 מציל את ההצבעה על ידי צמצום מתאם השגיאות. ה-verifier עוקף את המתאם — גם אם כל הסוכנים טועים יחד, קריטריון חיצוני שאינו תלוי בשגיאה חוסם את המעבר. זה אינו הצבעה אלא שער. ולכן הוא עובד גם במקומות שבהם אי אפשר להשיג אי-תלות, ובלבד שזה תחום הניתן לאימות.

האבחנה הזו אינה רק שלי. “Consensus is Not Verification” (arXiv:2603.06612) קיבעה את אותה מסקנה לפניי — צבירה מבוססת הסכמה אינה מניבה רווח עקבי לעומת מדגם בודד, ומגבירה אי-הבנות משותפות, וקנה-מידה בזמן היסק עובד בתחום הניתן לאימות (מתמטיקה) אך נכשל בתחום שאינו ניתן לאימות. ההסכמה אינה עובדת במתמטיקה משום שהיא אות אמת, אלא משום שה-verifier מסנן את המועמדים. אני מקבל את האבחנה הזו והולך צעד אחד קדימה — אל הרשם. המקור החזק ביותר לאי-תלות הוא הפיצול, ואי-התלות והאימות אינם מתחרים אלא משלימים, והנקודות שבהן verifier דטרמיניסטי נחלק משופט LLM הן שלוש (למטה).

אלא שהתעשייה מטילה גם את האימות הזה על LLM — LLM-as-Judge.

נתחיל בהוגנות. שופט LLM לעיתים קרובות עובד היטב. ב-MT-Bench שופט GPT-4 הסכים עם העדפות אנושיות ביותר מ-80%, וזו אותה רמת הסכמה כמו זו שבין בני אדם (arXiv:2306.05685). אם מדובר בהערכת העדפה עמומה, שופט LLM שמיש. הבעיה היא היכן הוא נשבר.

השופט נשבר כשהוא חולק את אותה מלכודת עם היוצר. LLM שופט מעריך גבוה מבן אדם פלטים המוכרים לו (בעלי perplexity נמוכה) (self-preference bias, NeurIPS 2024 WS, arXiv:2410.21819). אם השופט חולק את אותה התפלגות עם היוצר, הוא מעביר הזיה שיצר אותו מודל “כי היא מוכרת”. הסיבה ש-80% הסכמה אינם מנחמים היא ש-20% הטעויות מתרכזות דווקא במקומות שבהם גם היוצר טועה — הבעיה אינה הדיוק הממוצע אלא מתאם השגיאות. השיפוט מתנדנד גם ממשתנים בלתי-רלוונטיים כמו מיקום הצגת המועמד ולא התשובה הנכונה (position bias, arXiv:2406.07791).

ראיה תומכת אחת. שיפוט LLM מתנדנד גם בשכבת החומרה. גם עם אותו קלט ו-greedy decoding ב-T=0, התוצאה משתנה בהתאם לתצורת ה-GPU בגלל אי-אסוציאטיביות של נקודה צפה ו-dynamic batching — ב-BF16 הדיוק השתנה עד 9pp (arXiv:2506.09501). זו בעיית שחזוריות ולא בעיית תקֵפות, ולכן אינני הופך אותה לטיעון מרכזי. רק שמטריד להושיב בכס השופט הסופי משהו שאינו מסוגל להבטיח אפילו אותה תשובה לאותה שאלה.

לכן יש כיוון הפוך. יוצר חלש + verifier חזק. גם מודל חלש, אם מצמידים לו את אותו verifier, מתקרב למודל החזק, ושגיאות המודל החלש דווקא קלות יותר לזיהוי (arXiv:2509.17995). אפשר גם לשלב כמה verifiers חלשים במשקלול ליצירת verifier חזק (Weaver, arXiv:2506.18203), ואפשר לזקק פלט LLM באמצעות משוב של formal verifier ולהבטיח עקביות (AlphaVerus, arXiv:2412.06176). זו אינה טענה שולית — מודלי היסק וסוכני קוד שמתאמנים על תגמולים ניתנים לאימות הם כעת התחום המתפתח במהירות הגבוהה ביותר, ו-Jason Wei סיכם זאת כ-verifier’s law: מידת ההתחזקות של AI פרופורציונלית לניתנות-לאימות של המשימה.

כאן צריך להיות כנים. ה-verifier אינו אורקל קסום. בדיקות עלולות להחמיץ, ומפרט עלול להיות שגוי. וביתר חדות — אם LLM כותב את ה-verifier, הביקורת שזה עתה הטחתי ב-LLM-as-Judge קמה לתחייה כמות שהיא. אם היוצר וה-verifier הם אותו מודל, בדיקה שטועה באותו מקום מעבירה קוד שטועה באותו מקום. מתאם השגיאות רק מעתיק את מקומו אל שכבת האימות, אך אינו נעלם.

אז כיצד מונעים את התחייה. מעלים את אמינות ה-verifier ממחוץ ליוצר. שלושה הולכים יחד.

בקרה אנושית. בן אדם בודק פעם אחת את קריטריון האימות (מפרט·בדיקות·תכונות) ומקבע אותו. גם אם LLM כותב את הטיוטה, את קריטריון המעבר מכריע סופית בן אדם הנמצא מחוץ להתפלגות היוצר. העלות היא חד-פעמית, וקריטריון שקובע פעם אחת נעשה בו שימוש חוזר אינסוף פעמים — וזו ההבדל המכריע מ-LLM-as-Judge השופט מחדש בכל יצירה.
רדוקציה למתמטיקה·לוגיקה. מעבירים את האימות, ככל האפשר, לצורה ניתנת-להכרעה מכנית — type check, אינוריאנטה (invariant), הוכחה פורמלית, תכונה מתמטית. כאן אין מקום ל"שיפוט" של LLM. אמת/שקר נחתכים לפי כלל ולא לפי דעת מודל.
בדיקות חוזרות. שגיאת ה-verifier ניתנת לשחזור ולכן משתפרת באופן מצטבר. אם מרחיבים את הכיסוי באמצעות regression tests ו-property-based testing, חור שה-verifier החמיץ פעם אחת מקובע בבדיקה ולעולם אינו דולף שוב באותו מקום. שופט LLM מתנדנד גם על אותו קלט ולכן הצבירה הזו בלתי-אפשרית.

שלושת אלה הופכים את ה-verifier לקריטריון בלתי-תלוי בהטיית היוצר. הדרך לחתוך את מתאם השגיאות גם בשכבת האימות היא לקבע את ה-verifier לא בתוך המודל, אלא במערכת חיצונית של בני אדם·מתמטיקה·חבילת בדיקות.

אם כן, היכן נמצא ההבדל של verifier דטרמיניסטי. לא בחוסר-שגיאות. בשלושה. ראשית, קריטריון האימות נמצא מחוץ למשקלי היוצר — בין אם בן אדם כותב אותו ובין אם מייצרים אותו בהליך אחר, אפשר להקים קריטריון בלתי-תלוי בהטיית היוצר (אצל שופט LLM זה בלתי-אפשרי באופן מבני). שנית, שגיאת ה-verifier מתגלה לא כהזיה בטוחה-בעצמה אלא ככישלון ניתן-לזיהוי וניתן-לשחזור — מכיוון שהוא נותן אותו שיפוט לאותו קלט, הוא מנופה באגים ומשתפר באופן מצטבר. שלישית, האמון עובר אל משטח קטן ובר-ביקורת (מפרט·בדיקות), וברגע שבן אדם בודק פעם אחת, נעשה בו שימוש חוזר אינסוף פעמים. ה-verifier אינו מבטיח דיוק, אלא איכות ה-verifier היא הגבול העליון של הדיוק — ולא גודל היוצר.

התובנה המרכזית

נוסחת הדיוק של מערכת מרובת סוכנים:

דיוק = f(דיוק פרטני, אי-תלות בשגיאות, מנגנון אימות)

התעשייה משקיעה רק בראשון (מודל גדול יותר). את השני (אי-תלות) היא אינה מתכננת, ואת השלישי (אימות) היא מטילה על LLM. ואסטרטגיה שמשקיעה רק בראשון נתקלת בפרדוקס — ככל שהמודל גדל מתאם השגיאות עולה, ולכן ככל שאוספים יותר סוכנים חכמים יותר, הם טועים יחד בחביבות רבה יותר.

השני והשלישי הם הידיות האמיתיות. ושניהם אינם מתחרים. אי-תלות (ציר 1) מצילה את ההצבעה, ו-verifier (ציר 2) חותך את המקומות שאליהם ההצבעה אינה מגיעה. כשיש את שניהם, זה החזק ביותר.

מערכת המחקר של Anthropic: פיצול ציר 1 עד הקצה — פיצול הבעיה וחקירה מקבילה בלתי-תלויה. שיפור 90.2% ללא verifier.
SciencePedia (סין, 2026): כמה solvers בלתי-תלויים פותרים כל אחד לחוד (ציר 1), ורק תשובות שהוסכמו בין המודלים נשמרות (cross-model consensus, arXiv:2510.26854). אלא שהמסנן הסופי הוא “הסכמת מודלים”, ולכן ציר 2 נתפס רק בחציו — הסכמה אינה אימות דטרמיניסטי. זו הסיבה שאפשר לסמוך עליה רק כשהיא מוגבלת לתחום ניתן לאימות כמו מתמטיקה·לוגיקה.
הסיבה ש-8 סוכנים מאותו מודל נכשלים: שני הצירים נעדרים. אי-תלות אפס, לולאת אימות אפס. שמונה נתקעים באותו מקום יחד.
הסיבה ש-yongol עובד אפילו עם Haiku: מימוש ישיר של ציר 2. גם אם דיוק המודל נמוך, verifier דטרמיניסטי מסנן בכל שלב — כל עוד איכות ה-verifier תומכת.

משל הדמוקרטיה

כשם שדמוקרטיה, אם היא הכרעת רוב של בוחרים שצפו באותן חדשות, הופכת לעריצות ההמון, כך הכרעת רוב של LLM-ים שאומנו על אותם נתונים היא הסכמה של הזיות. מספר הראשים אינו יוצר אמת. ראשים בלתי-תלויים יוצרים אותה. ובמקומות שאליהם מספר הראשים אינו מגיע, הקריטריון שמחוץ למספר הראשים יוצר אותה.

הקשר לאבולוציה

אותה אינטואיציה נקראת גם באלגוריתמי למידה. ב-backpropagation כיווני ה-gradient מתואמים, ובאבולוציה המוטציות מתפזרות באופן בלתי-תלוי. יש דיווח שאלגוריתם גנטי שאינו משתמש כלל ב-gradient חוקר במרחב פתרונות שונה מזה של שיטות מבוססות-gradient בלמידת חיזוק עמוקה (Deep Neuroevolution, arXiv:1712.06567). חקירה בלתי-תלויה מגיעה למקומות שחקירה מתואמת אינה מגיעה אליהם — העיקרון שראינו ב-ensemble מקבל אותה צורה גם באופטימיזציה. אלא ש"זה טוב יותר בגלל אי-התלות" הוא עדיין פרשנות בדיעבד — אני משאיר זאת כהשערה ולא כהוכחה.

מסקנה

מערכת מרובת סוכנים אינה “אם רבים אז מדויק”. מטרת המתקפה אינה המערכת מרובת הסוכנים אלא ההצבעה ללא אי-תלות. לאסוף N עותקים מאותו מודל ולהכריע ברוב פירושו לגדל מקהלה שטועה יחד.

הרשם כפול, ושניהם אמיתיים. ראשית, תכנן אי-תלות — אם תפצל את הבעיה לחלקים בלתי-תלויים (הוודאי ביותר), מערכת מרובת סוכנים עובדת גם עם אותו מודל. שנית, אם זה תחום ניתן לאימות, הצב verifier מחוץ ל-LLM — הוא מעלה את הגבול העליון של הדיוק ללא קשר לאי-תלות.

נקבע את הסקופ ביושר. ציר ה-verifier (ציר 2) הוא תשובה רק בתחום ניתן לאימות — מקומות שבהם אפשר לחתוך את התשובה הנכונה לפי קריטריון חיצוני, כמו קוד, מתמטיקה, מפרט פורמלי. בתחומים שאין בהם קריטריון כזה — כמו יצירה פתוחה·סיכום·ייעוץ·יצירה אמנותית·שיקול אסטרטגי — ציר 1, כלומר תכנון אי-התלות, הוא הידית היחידה שנותרת. הידית הנעולה אינה גודל המודל — אלא אי-תלות השגיאות, ובמקומות שאפשר, verifier חיצוני.

(גילוי ניגוד עניינים: אני בונה את yongol, כלי שמציב verifier דטרמיניסטי כ-keystone. לכן ליבי נוטה אל ציר ה-verifier. קראו את הטיעון שלמעלה בהתחשב גם בהטיה הזו — אם השדרה שגויה, גם הכלי שגוי.)

לקריאה נוספת

Don’t Build Multi-Agents — Cognition (יצרנית Devin), 2025. מאמר שטח מצוין שקובע בנחרצות שעדיף לא לבנות מערכות מרובות סוכנים. כשההקשר מתפצל, הסוכנים מתנגשים זה בזה — מלכודת המשימות שאינן ניתנות לפיצול. (גם ההמשך Multi-Agents: What’s Actually Working, 2026.)
How we built our multi-agent research system — Anthropic, 2025. לקריאה בזוג עם המאמר שלמעלה. מראה את התנאי שבו מערכת מרובת סוכנים עובדת — כשתת-המשימות ניתנות למיקבול בלתי-תלוי (פיצול ציר 1) — בשיפור 90.2%.
Asymmetry of verification and verifier’s law — Jason Wei, 2025. “מידת ההתחזקות של AI פרופורציונלית לניתנות-לאימות של המשימה.” השדרה התאורטית של ציר 2 (יוצר חלש + verifier חזק).
Hallucinations in code are the least dangerous form of LLM mistakes — Simon Willison, 2025. קוד נחשף ברגע שמריצים אותו. הדוגמה האינטואיטיבית ביותר לכך שאימות דטרמיניסטי הוא המנוף המכריע.
Using LLM-as-a-Judge For Evaluation — Hamel Husain, 2024. הסיבה שאסור לסמוך על שופט LLM כמות שהוא, וההליך המעשי שבו מתאימים אותו לבני אדם ורק אז מרחיבים לאוטומציה בקנה מידה.
Defeating Nondeterminism in LLM Inference — Thinking Machines Lab, 2025. הסיבה האמיתית שבגללה LLM מתנדנד גם ב-temperature=0. הבסיס התשתיתי לכך שצריך להציב את ה-verifier מחוץ למודל.
The Wisdom of Crowds — חוכמת ההמונים מתאדה כשהגיוון והאי-תלות קורסים. מבוא נגיש המסביר את תנאי האי-תלות של Condorcet בהקשר שאינו-AI.

תמונת השער: נוצרה על ידי בינה מלאכותית (Google Gemini)

מקורות

Condorcet ותיאוריית ensemble

משפט חבר המושבעים של Condorcet (1785) — שני התנאים להתכנסות הכרעת רוב: דיוק פרטני >50%, אי-תלות בשגיאות
Krogh & Vedelsby, Neural Network Ensembles, Cross Validation, and Active Learning (NeurIPS 1994) — פירוק ambiguity
Wood et al., A Unified Theory of Diversity in Ensemble Learning (JMLR 2023, arXiv:2301.03962) — פירוק bias-variance-diversity

מתאם שגיאות ב-LLM / מגבלות ההסכמה

Kim et al., Correlated Errors in Large Language Models (ICML 2025, arXiv:2506.07962) — בשגיאה בו-זמנית של שני מודלים, 60% אותה תשובה שגויה; ככל שהמודל גדול יותר, המתאם↑
Lefort et al., Examining Independence in Ensemble Sentiment Analysis … Condorcet Jury Theorem (arXiv:2409.00094) — הנחת אי-התלות של Condorcet נשברת ב-LLM
Denisov-Blanch et al., Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness (2026, arXiv:2603.06612) — צבירה מבוססת הסכמה מגבירה אי-הבנות משותפות, קנה-מידה בזמן היסק עובד רק בתחום ניתן לאימות (זהה לאבחנה של מאמר זה — בגוף המאמר נבדל ברשם)

מערכות מרובות סוכנים: אי-תלות ופיצול

Cemri et al., Why Do Multi-Agent LLM Systems Fail? (UC Berkeley, 2025, arXiv:2503.13657) — ניתוח 7 frameworks ו-1,600+ execution traces. סיווג 14 מצבי כישלון ל-3 קטגוריות: עיצוב מערכת, כישלון התאמה בין סוכנים, אימות (task verification)
Smit et al., Should we be going MAD? (ICML 2024, arXiv:2311.17371) — דיון אינו מנצח באופן יציב baseline פשוט
Zhang et al., Stop Overvaluing Multi-Agent Debate (arXiv:2502.08788) — הטרוגניות היא התרופה (משחזרים אי-תלות, אז עובד)
Du et al., Improving Factuality and Reasoning through Multiagent Debate (ICML 2024, arXiv:2305.14325) — הטיעון החיובי המקורי של MAD
Wang et al., Self-Consistency Improves Chain of Thought Reasoning (ICLR 2023, arXiv:2203.11171) — הרווח מגיוון הנתיבים
Turkmen et al., Don’t Always Pick the Highest-Performing Model: An Information Theoretic View of LLM Ensemble Selection (2026, arXiv:2602.08003) — קריטריון בחירת ensemble אינו ביצוע פרטני אלא מתאם↓ (מקסום מידע הדדי). גם אם חלש, אם מגוון — מנצח

אמינות LLM-as-Judge

Zheng et al., Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena (NeurIPS 2023, arXiv:2306.05685) — שופט GPT-4 מסכים עם בני אדם ב-80%+ (ראיה חיובית)
Wataoka et al., Self-Preference Bias in LLM-as-a-Judge (NeurIPS 2024 WS, arXiv:2410.21819)
Shi et al., Judging the Judges: Position Bias in LLM-as-a-Judge (arXiv:2406.07791)
Numerical Sources of Nondeterminism in LLM Inference (arXiv:2506.09501) — הפלט מתנדנד גם ב-T=0

יוצר חלש + verifier חזק

Saad-Falcon et al., Shrinking the Generation-Verification Gap with Weak Verifiers (Weaver, arXiv:2506.18203)
Aggarwal et al., AlphaVerus: Formally Verified Code Generation (arXiv:2412.06176)
Variation in Verification: Understanding Verification Dynamics in LLMs (arXiv:2509.17995)

מקרי יצירה ניתנת לאימות

SciencePedia (DP Technology / DeepModeling, 2026) — Inverse Knowledge Search over Verifiable Reasoning (arXiv:2510.26854). solver בלתי-תלוי + מסנן cross-model consensus

אבולוציה מול gradient

Such et al., Deep Neuroevolution (arXiv:1712.06567) — GA חוקר מרחב פתרונות שונה מ-gradient

מדידה אמפירית ראשונית (המחבר עצמו)

ZenFlow / Grok Build: 8 concurrent agents, 3 מתוך 10 endpoints לא הושלמו (validate לא עבר)
ZenFlow / yongol: Haiku השלים, Sonnet 131 דקות, Opus 76 דקות

יומן שינויים

2026-06-02: מהדורה ראשונה