الشروط المسبقة لتحسين دقة وكلاء LLM المتعددين

الشروط المسبقة لتحسين دقة وكلاء LLM المتعددين Image: AI generated

المشكلة

هناك حدس يقول: “إذا شغّلت عدة وكلاء، صار النظام أدق”. وهذا صحيح بالنصف فقط.

ما يجب أن نصوّب نحوه بدقة ليس الوكلاء المتعددين بحد ذاتهم، بل الوكلاء المتعددون الذين يصوّتون من دون استقلالية. إذا شغّلت N وكيلاً صُنعوا من النموذج نفسه والبيانات نفسها والمحاذاة نفسها ثم أخذت بحكم الأغلبية — فلن يصير النظام أدق. بل سيخطئون معاً.

قياس فعلي على ensemble من نماذج LLM في تحليل المشاعر: حتى عند إضافة نموذج أكبر وأدق، كان المكسب ضئيلاً. لأن الاستقلالية التي افترضتها نظرية Condorcet كانت منهارة (arXiv:2409.00094).
النقاش متعدد الوكلاء (MAD): حتى مع إقحام النقاش، فإنه لا يتفوق باطّراد على self-consistency لوكيل واحد (ICML 2024, arXiv:2311.17371).
ملاحظتي الحكائية (عينة 1، بلا ضبط): في مهمة ZenFlow، عندما شغّلت Grok Build بثمانية وكلاء متزامنين، توقّف عند 3 من أصل 10 نقاط نهائية ولم يجتز validate. إنها مجرد حكاية، فلا نُحمِّلها وزناً بقدر الدراستين أعلاه.

حكم الأغلبية ليس سحراً. لقد نصّت نظرية هيئة المحلفين لـ Condorcet على الشروط المسبقة قبل 200 عام. وعند استيفاء تلك الشروط، فإن الوكلاء المتعددين يعملون فعلاً. وهذا المقال عمّا هي تلك الشروط وكيف تُستوفى.

شرطا Condorcet

في عام 1785، صاغ Condorcet في معادلة شروط تقارب حكم الأغلبية نحو الحقيقة.

دقة كل ناخب > 50%
أخطاء الناخبين مستقلة عن بعضها

(بدقة، هناك شرط ثالث أيضاً، هو افتراض التجانس بأن للجميع الدقة نفسها. نطويه تبسيطاً.)

الشرط الثاني هو الجوهر. النماذج المُحاذاة بالبيانات التدريبية نفسها والبنية نفسها وعملية RLHF نفسها تخطئ في الموضع نفسه. وعند التصويت تصبح “الإجابة الخاطئة المشتركة” هي الأغلبية.

هذا ليس مجرد حدس. تُبلِّغ دراسة حلّلت أكثر من 350 نموذج LLM بأنه عندما يخطئ نموذجان معاً، فإنهما يتقاربان نحو الإجابة الخاطئة نفسها باحتمال 60% (ICML 2025, arXiv:2506.07962). وفي الدراسة نفسها لوحظت مفارقة أكبر — كلما كان النموذج أكبر وأدق، ارتفع ارتباط الأخطاء. وكان ذلك صحيحاً حتى مع اختلاف البنية. (إنه تحليل واحد واسع النطاق، والتكرار الواسع لم يتحقق بعد. ومع ذلك فالاتجاه على الأقل هو تماماً ما أنذر به Condorcet.)

رياضيات الأخطاء المترابطة

إذا كانت الأخطاء مستقلة، فإن الـ ensemble يقتطع الإجابات الخاطئة. وإذا كانت مترابطة، فلا شيء يُقتطع.

عند الاستقلال: P(كلاهما خطأ) = 0.1 × 0.1 = 0.01
عند الترابط التام: P(كلاهما خطأ) ≈ 0.1 (إذا أخطأ أحدهما أخطأ الآخر أيضاً)

يتجذّر هذا الحدس في نظرية عمرها 30 عاماً. تفكيك ambiguity لدى Krogh وVedelsby (NeurIPS 1994): خطأ الـ ensemble = متوسط خطأ الأعضاء − تنوّع الـ ensemble. كلما ترابطت أخطاء الأعضاء، تقارب حدّ التنوّع نحو الصفر، واختفى المكسب مهما أضفت من نماذج. وقد عمّمت النظرية الموحّدة في JMLR لعام 2023 هذا — التنوّع ليس مقبضاً منفصلاً بل بُعد مختبئ داخل تفكيك bias-variance (arXiv:2301.03962).

تلخيصاً:

الشرط الذي يرفع فيه الـ ensemble الدقة: كلما انخفض ارتباط الأخطاء، كبر المكسب (أقصاه عند الارتباط السالب).
الشرط الذي يتقارب فيه مكسب الـ ensemble نحو الصفر: ارتباط الأخطاء → 1 (البيانات نفسها، التحيّز نفسه).

وشكل التصويت مهم أيضاً. حكم الأغلبية (majority) يرفع الدقة كما تقول Condorcet إذا كان مستقلاً. لكن إذا قيّدته بإجماع (unanimity، بوابة AND) يقول “يجب أن يجيزه الجميع”، فإن الدقة تنهار ضرباً — إذا كانت دقة المصنِّف 0.977 وقيّدت n منها بالإجماع، فالنتيجة 0.977ⁿ. وإذا أسأت تصميم البوابة، فإن مزيداً من الوكلاء يصنع دقة أقل.

إلى هنا التشخيص. والآن ينقسم العلاج إلى مسارين — إمّا خفض ارتباط الأخطاء (المحور 1)، أو الالتفاف حوله (المحور 2).

المحور 1 — إذا أمّنت الاستقلالية، عمل الوكلاء المتعددون

لنوضِّح. ليس الوكلاء المتعددون هم الخطأ. التصويت بلا استقلالية هو الخطأ. إذا استوفيت الشرط الثاني لـ Condorcet — إذا جعلت أخطاء الوكلاء غير مترابطة — فإن حكم الأغلبية يرفع الدقة كما وعد. وطريق صنع الاستقلالية طريقان.

(أ) قسّم المشكلة — وهذا الأقوى.

لا تُعطِ الوكلاء المشكلة نفسها لتُصوّت، بل أعطِ كلاً منهم مشكلة فرعية مختلفة. إذا اختلفت المُدخلات، صارت الأخطاء مستقلة بنيوياً — حتى لو كان النموذج نفسه. وكيلان يقرآن وثيقتين مختلفتين لا يمكنهما أن يخطئا في الموضع نفسه. لأنهما ينظران إلى موضعين مختلفين.

تحسُّن 90.2% الذي أبلغ عنه نظام Anthropic البحثي متعدد الوكلاء مقارنة بوكيل واحد هو بالضبط هذا المبدأ. يقسّم الوكيل القائد المشكلة ويوزّعها على وكلاء فرعيين متوازين، ثم يجمع نتائج استكشاف كل منهم المستقل. لم يكن الـ verifier ضرورياً. لأن التقسيم صنع الاستقلالية مجاناً.

لكن هناك شرط. يجب أن تكون المشكلة قابلة للتقسيم. في المهام التي تعتمد فيها المهام الفرعية بعضها على بعض وتحتاج تنسيقاً مستمراً — كأن يُعدّل عدّة وكلاء كتلة كود واحدة في آنٍ واحد — يتصادم الوكلاء الفرعيون المتوازون بدلاً من ذلك. يتجزّأ السياق فيتخذون قرارات متناقضة (Cognition, “Don’t Build Multi-Agents”). استقلالية التقسيم مجانية فقط حين تكون المشكلات الفرعية مستقلة حقاً.

(ب) نوّع النماذج — يعمل لكنّ له سقف.

حتى للمشكلة نفسها، إذا جعلت نماذج مختلفة (GPT·Claude·Gemini) تحلّها، فإن أوزانها مختلفة فينخفض ارتباط الأخطاء. والنقاش متعدد الوكلاء أيضاً لا يتفوّق على خط الأساس الواحد إلا حين تمزج نماذج غير متجانسة (arXiv:2502.08788) — وأنا لا أدحض هذا. الجوهر أن المسألة ليست الدقة الفردية بل الارتباط. وحتى عند اختيار النماذج للوضع في الـ ensemble، هناك نتيجة من نظرية المعلومات تقول إنه يجب اختيار التركيبة الأقل ارتباطاً لا أقوى نموذج — فالضعيفة المتنوّعة تتفوّق على أقوى نموذج واحد (arXiv:2602.08003). إلا أن سقف هذا المقبض منخفض. مدوّنات الإنترنت تتداخل، وكما رأينا، كلما كبر النموذج عاد ليخطئ مع غيره (arXiv:2506.07962). التنوّع يخفّض الارتباط لكنه لا يجعله صفراً.

ثالثاً، فإن self-consistency التي تشتّت مسارات الاستدلال داخل النموذج نفسه أيضاً تُنتج مكسباً بجعل الأخطاء السطحية غير مترابطة (GSM8K +17.9pp, arXiv:2203.11171). لكن ذلك المكسب يتوقف أمام النقطة التي يخطئ فيها النموذج منهجياً — التحيّز نفسه الذي نقشته البيانات نفسها. مهما نوّعت المسارات، فإن للنموذج طريقة واحدة في جهله بما يجهل.

مصدر الاستقلالية	مبدأ العمل	الحدّ
تقسيم المشكلة (مُدخلات مختلفة)	إذا اختلفت المُدخلات صارت الأخطاء مستقلة بنيوياً	للمشكلات القابلة للتقسيم فقط. أثر عكسي على المهام المترابطة المحتاجة للتنسيق
نماذج غير متجانسة (GPT+Claude+Gemini)	إذا اختلفت الأوزان انخفض الارتباط	تداخل المدوّنات + كلما كبر النموذج ارتفع الارتباط
تنويع مسارات الاستدلال (self-consistency)	أخذ عيّنات المسارات داخل نموذج واحد ثم حكم الأغلبية	يتوقف أمام الخطأ المنهجي

خلاصة المحور 1: الوكلاء المتعددون يعملون إذا صمّمت الاستقلالية. والاستقلالية الأكيدة لا تأتي من إيجاد نموذج آخر، بل من تقسيم المشكلة إلى قطع مستقلة.

المحور 2 — الـ verifier يلتفّ حول الاستقلالية

المقبض الثالث من نوع مختلف. المحور 1 يُنقذ التصويت بخفض ارتباط الأخطاء. أما الـ verifier فيلتفّ حول الارتباط — حتى لو أخطأ الوكلاء كلهم معاً، فإن معياراً خارجياً لا علاقة له بالأخطاء يمنع الإجازة. إنه بوابة لا تصويت. لذلك يعمل حتى حيث لا يمكن تأمين الاستقلالية، ما دام المجال قابلاً للتحقق.

هذا التشخيص ليس ملكي وحدي. “Consensus is Not Verification” (arXiv:2603.06612) رسّخ الاستنتاج نفسه قبلي — التجميع القائم على الإجماع لا يقدّم مكسباً متّسقاً مقارنة بعيّنة واحدة، بل يضخّم سوء الفهم المشترك، وتوسيع وقت الاستدلال يعمل في المجالات القابلة للتحقق (الرياضيات) لكنه يفشل في المجالات غير القابلة للتحقق. ليس لأن الإجماع إشارة للحقيقة فينجح في الرياضيات، بل لأن الـ verifier يُصفّي المرشّحين فينجح. أنا أقبل ذلك التشخيص وأمضي خطوة أبعد — نحو العلاج. أقوى مصدر للاستقلالية هو التقسيم، والاستقلالية والتحقق ليسا تنافساً بل تكاملاً، والنقاط التي ينفصل عندها الـ verifier الحتمي عن حَكَم الـ LLM ثلاث (أدناه).

لكن الصناعة تُسلِّم حتى هذا التحقق إلى الـ LLM — LLM-as-Judge.

لنبدأ بإنصاف. حَكَم الـ LLM يعمل جيداً في كثير من الأحيان. في MT-Bench، اتّفق حَكَم GPT-4 مع تفضيل البشر بنسبة تجاوزت 80%، وهذا على مستوى اتفاق البشر فيما بينهم (arXiv:2306.05685). إذا كان التقييم تفضيلاً غامضاً، فحَكَم الـ LLM صالح للاستخدام. المشكلة أين ينهار.

ينهار الحَكَم حين يشترك مع المولِّد في المصيدة نفسها. حَكَم الـ LLM يُقيّم المخرجات المألوفة له (منخفضة perplexity) أعلى من البشر (self-preference bias, NeurIPS 2024 WS, arXiv:2410.21819). إذا شارك الحَكَم المولِّدَ التوزيعَ نفسه، أجاز هلوسة صنعها النموذج نفسه “لأنها مألوفة”. ونسبة الاتفاق 80% لا تُطمئن، لأن الـ 20% التي تخطئ تتكدّس تحديداً حيث يخطئ المولِّد أيضاً — المشكلة ليست متوسط الدقة بل ارتباط الأخطاء. كما يتزعزع الحكم بمتغيّرات غير ذات صلة كموضع عرض المرشّح لا الإجابة الصحيحة (position bias, arXiv:2406.07791).

دليل مساند واحد. حكم الـ LLM يتزعزع حتى على مستوى العتاد. حتى مع المُدخل نفسه وT=0 greedy decoding، تختلف النتائج بحسب تكوين الـ GPU بسبب لاتجميعية الفاصلة العائمة والـ batching الديناميكي — تباينت الدقة في BF16 حتى 9pp (arXiv:2506.09501). هذه مشكلة قابلية تكرار لا مشكلة صلاحية، فلا أتّخذها حجة رئيسية. غير أن إجلاس ما لا يضمن إجابة واحدة للسؤال نفسه في مقعد الحَكَم الأخير أمر مُريب.

لذلك هناك اتجاه معاكس. مولِّد ضعيف + verifier قوي. حتى النموذج الضعيف يقترب من النموذج القوي إذا أُلحق به الـ verifier نفسه، بل إن خطأ النموذج الضعيف أسهل في الكشف (arXiv:2509.17995). ويمكن أيضاً صنع verifier قوي بدمج موزون لعدّة مُحقِّقين ضعفاء (Weaver, arXiv:2506.18203)، أو ضمان الاتساق بتنقية مخرجات الـ LLM عبر تغذية راجعة من formal verifier (AlphaVerus, arXiv:2412.06176). هذا ليس ادّعاءً هامشياً — فنماذج الاستدلال ووكلاء البرمجة المتعلّمة بمكافآت قابلة للتحقق هي أسرع المجالات تطوّراً الآن، وقد لخّص Jason Wei ذلك في verifier’s law: مقدار قوّة الذكاء الاصطناعي يتناسب مع قابلية المهمة للتحقق.

وهنا يجب أن نكون صادقين. الـ verifier ليس عرّافاً سحرياً. قد تفوت الاختبارات، وقد تكون المواصفات خاطئة. وأحدّ من ذلك — إذا كتب الـ LLM الـ verifier، فإن النقد الذي وجّهته للتوّ إلى LLM-as-Judge يُبعَث كما هو. إذا كان المولِّد والمُحقِّق النموذج نفسه، فإن اختباراً خاطئاً في موضع ما يُجيز كوداً خاطئاً في الموضع نفسه. ارتباط الأخطاء ينتقل مكانه إلى طبقة التحقق فحسب، ولا يختفي.

فكيف نمنع البعث إذن؟ برفع موثوقية الـ verifier من خارج المولِّد. ثلاثة أمور تمضي معاً.

المراجعة البشرية. يراجع الإنسان مرة معايير التحقق (المواصفات·الاختبارات·الخصائص) فيثبّتها. حتى لو كتب الـ LLM المسوّدة، فإن من يُقرّ معيار الإجازة هو إنسان خارج توزيع المولِّد. التكلفة مرة واحدة فقط، والمعيار المثبَّت مرة يُعاد استخدامه بلا نهاية — وهذه نقطة الافتراق الحاسمة عن LLM-as-Judge الذي يحكم من جديد مع كل توليد.
الإرجاع إلى الرياضيات·المنطق. انقل التحقق قدر الإمكان إلى صورة قابلة للحسم آلياً — فحص الأنواع، اللامتغيّرات (invariant)، الإثبات الصوري، الخصائص الرياضية. لا مكان هنا لـ"حُكم" الـ LLM. صحّة/خطأ الأمر تُحسَم بقاعدة لا برأي النموذج.
الاختبار المتكرر. بما أن خطأ الـ verifier قابل للتكرار، فإنه يتحسّن تراكمياً. إذا وسّعت التغطية باختبارات الانحدار والاختبار القائم على الخصائص (property-based testing)، فإن الثغرة التي فوّتها الـ verifier مرة تُحنَّط في اختبار فلا تتسرّب من الموضع نفسه أبداً. أما حَكَم الـ LLM فيتزعزع حتى مع المُدخل نفسه، فهذا التراكم مستحيل.

هذه الثلاثة تجعل الـ verifier معياراً مستقلاً عن تحيّز المولِّد. طريقة قطع ارتباط الأخطاء في طبقة التحقق أيضاً هي تثبيت الـ verifier في الخارج — في الإنسان والرياضيات وحزمة الاختبارات — لا داخل النموذج.

فأين يكمن فرق الـ verifier الحتمي إذن؟ ليس انعدام الخطأ. بل ثلاثة. أولاً، معيار التحقق يقع خارج أوزان المولِّد — سواء كتبه إنسان أو صُنع بإجراء آخر، يمكن إقامة معيار مستقل عن تحيّز المولِّد (وهذا مستحيل بنيوياً لحَكَم الـ LLM). ثانياً، خطأ الـ verifier يظهر لا كهلوسة واثقة بل كفشل قابل للكشف وقابل للتكرار — وبما أنه يعطي الحكم نفسه للمُدخل نفسه، فإنه يُنقَّح ويتحسّن تراكمياً. ثالثاً، تنتقل الثقة إلى سطح صغير قابل للتدقيق (المواصفات·الاختبارات)، فيُعاد استخدامها بلا نهاية حين يراجعها الإنسان مرة. الـ verifier لا يضمن الدقة، بل تصير جودة الـ verifier هي الحدّ الأعلى للدقة — لا حجم المولِّد.

البصيرة الجوهرية

معادلة دقة الوكلاء المتعددين:

الدقة = f(الدقة الفردية، استقلالية الأخطاء، آلية التحقق)

الصناعة تستثمر في الأول فقط (نموذج أكبر). لا تُصمِّم الثاني (الاستقلالية)، وتُسلِّم الثالث (التحقق) إلى الـ LLM. واستراتيجية الاستثمار في الأول فقط تصطدم بمفارقة — كلما كبر النموذج ارتفع ارتباط الأخطاء، فكلما جمّعت أكثرَ من الوكلاء الأذكى، أخطؤوا معاً على وفاق أكبر.

الثاني والثالث هما المقبضان الحقيقيان. وهما لا يتنافسان. الاستقلالية (المحور 1) تُنقذ التصويت، والـ verifier (المحور 2) يقطع ما لا يبلغه التصويت. وإذا توفّر كلاهما، كان الأقوى.

نظام Anthropic البحثي: تقسيم المحور 1 إلى أقصاه — تقسيم المشكلة واستكشاف متوازٍ مستقل. تحسُّن 90.2% بلا verifier.
SciencePedia (الصين، 2026): عدّة solvers مستقلين يحلّ كل منهم على حدة (المحور 1)، ولا يُحفَظ إلا ما اتُّفق عليه بين النماذج (cross-model consensus, arXiv:2510.26854). إلا أن المرشِّح النهائي “إجماع النماذج”، فلم يُمسك بالمحور 2 إلا نصفاً — الإجماع ليس تحققاً حتمياً. ولهذا لا يمكن الوثوق به إلا حين يقتصر على مجال قابل للتحقق كالرياضيات·المنطق.
لماذا يفشل 8 وكلاء من النموذج نفسه: غياب المحورين كليهما. استقلالية صفر، حلقة تحقق صفر. ثمانية يتوقّفون معاً في موضع واحد.
لماذا ينجح yongol حتى مع Haiku: تطبيق مباشر للمحور 2. حتى لو كانت دقة النموذج منخفضة، فإن الـ verifier الحتمي يُصفّي في كل خطوة — ما دامت جودة الـ verifier تسند ذلك.

استعارة الديمقراطية

كما تصبح الديمقراطية حكم رعاع إذا كانت حكم أغلبية لناخبين شاهدوا الأخبار نفسها، فإن حكم أغلبية نماذج LLM المدرَّبة على البيانات نفسها هو إجماع الهلوسة. عدد الرؤوس لا يصنع الحقيقة. الرؤوس المستقلة تصنعها. وحيث لا تبلغ الرؤوس، يصنعها معيار خارج الرؤوس.

الصلة بالتطوّر

يُقرأ الحدس نفسه في خوارزميات التعلّم أيضاً. في الانتشار الخلفي تترابط اتجاهات الـ gradient، وفي التطوّر تتشتّت الطفرات مستقلة. هناك تقرير بأن الخوارزمية الجينية التي لا تستخدم الـ gradient البتّة تستكشف فضاء حلول مختلفاً عن المبنيّ على الـ gradient في التعلّم المعزّز العميق (Deep Neuroevolution, arXiv:1712.06567). الاستكشاف المستقل يبلغ حيث لا يبلغ الاستكشاف المترابط — المبدأ الذي رأيناه في الـ ensemble بالشكل نفسه في التحسين. إلا أن “إنه أفضل بسبب الاستقلالية” لا يزال تفسيراً بعديّاً — أتركه فرضيةً لا برهاناً.

الخاتمة

الوكلاء المتعددون ليسوا “كثرتهم تعني الدقة”. هدف الهجوم ليس الوكلاء المتعددين بل التصويت بلا استقلالية. جمع N من النموذج نفسه والأخذ بحكم الأغلبية هو تربية جوقة تخطئ معاً.

العلاج اثنان، وكلاهما حقيقي. أولاً، صمِّم الاستقلالية — إذا قسّمت المشكلة إلى قطع مستقلة (وهذا الأكيد)، عمل الوكلاء المتعددون حتى بالنموذج نفسه. ثانياً، إن كان المجال قابلاً للتحقق فأقِم verifier خارج الـ LLM — يرفع الحدّ الأعلى للدقة بمعزل عن الاستقلالية.

لنُثبِّت النطاق بصدق. محور الـ verifier (المحور 2) جواب في المجالات القابلة للتحقق فقط — حيث يمكن قطع الإجابة الصحيحة بمعيار خارجي كالكود والرياضيات والمواصفات الصورية. أما في المجالات التي لا معيار فيها كالتوليد المفتوح والتلخيص والاستشارة والإبداع وحكم الاستراتيجية، فإن المحور 1، أي تصميم الاستقلالية، هو المقبض الوحيد المتبقّي. المقبض المُقفَل ليس حجم النموذج — بل استقلالية الأخطاء، وحيث أمكن، verifier خارجي.

(إفصاح عن تضارب المصالح: أنا أصنع أداة yongol التي تتّخذ الـ verifier الحتمي حجر زاوية. لذا يميل قلبي إلى محور الـ verifier. اقرؤوا الحجة أعلاه آخذين هذا التحيّز في الحسبان أيضاً — إن كان العمود الفقري خاطئاً فالأداة خاطئة كذلك.)

مراجع

Condorcet ونظرية الـ ensemble

نظرية هيئة المحلفين لـ Condorcet (1785) — شرطا تقارب حكم الأغلبية: الدقة الفردية >50%، استقلال الأخطاء
Krogh & Vedelsby, Neural Network Ensembles, Cross Validation, and Active Learning (NeurIPS 1994) — تفكيك ambiguity
Wood et al., A Unified Theory of Diversity in Ensemble Learning (JMLR 2023, arXiv:2301.03962) — تفكيك bias-variance-diversity

ارتباط أخطاء الـ LLM / حدود الإجماع

Kim et al., Correlated Errors in Large Language Models (ICML 2025, arXiv:2506.07962) — عند خطأ نموذجين معاً 60% إجابة خاطئة متطابقة، وكلما كبر النموذج ارتفع الارتباط
Lefort et al., Examining Independence in Ensemble Sentiment Analysis … Condorcet Jury Theorem (arXiv:2409.00094) — انهيار افتراض استقلالية Condorcet في الـ LLM
Denisov-Blanch et al., Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness (2026, arXiv:2603.06612) — تجميع الإجماع يضخّم سوء الفهم المشترك، وتوسيع وقت الاستدلال يعمل في المجالات القابلة للتحقق فقط (التشخيص نفسه لهذا المقال — مُمايَز في المتن بوصفه علاجاً)

الوكلاء المتعددون: الاستقلالية والتقسيم

Cemri et al., Why Do Multi-Agent LLM Systems Fail? (UC Berkeley, 2025, arXiv:2503.13657) — تحليل 7 أُطُر و1,600+ أثر تنفيذ. تصنيف 14 نمط فشل إلى 3 فئات: تصميم النظام، فشل المحاذاة بين الوكلاء، التحقق (task verification)
Smit et al., Should we be going MAD? (ICML 2024, arXiv:2311.17371) — النقاش لا يتفوق باطّراد على خط أساس بسيط
Zhang et al., Stop Overvaluing Multi-Agent Debate (arXiv:2502.08788) — عدم التجانس ترياق (يعمل عند استعادة الاستقلالية)
Du et al., Improving Factuality and Reasoning through Multiagent Debate (ICML 2024, arXiv:2305.14325) — الادّعاء الإيجابي الأصلي لـ MAD
Wang et al., Self-Consistency Improves Chain of Thought Reasoning (ICLR 2023, arXiv:2203.11171) — مكسب تنويع المسارات
Turkmen et al., Don’t Always Pick the Highest-Performing Model: An Information Theoretic View of LLM Ensemble Selection (2026, arXiv:2602.08003) — معيار اختيار الـ ensemble ليس الأداء الفردي بل خفض الارتباط (تعظيم المعلومات المتبادلة). الضعيف المتنوّع يتفوّق

موثوقية LLM-as-Judge

Zheng et al., Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena (NeurIPS 2023, arXiv:2306.05685) — حَكَم GPT-4 يتّفق مع البشر بنسبة 80%+ (دليل إيجابي)
Wataoka et al., Self-Preference Bias in LLM-as-a-Judge (NeurIPS 2024 WS, arXiv:2410.21819)
Shi et al., Judging the Judges: Position Bias in LLM-as-a-Judge (arXiv:2406.07791)
Numerical Sources of Nondeterminism in LLM Inference (arXiv:2506.09501) — تزعزع المخرجات حتى عند T=0

مولِّد ضعيف + verifier قوي

Saad-Falcon et al., Shrinking the Generation-Verification Gap with Weak Verifiers (Weaver, arXiv:2506.18203)
Aggarwal et al., AlphaVerus: Formally Verified Code Generation (arXiv:2412.06176)
Variation in Verification: Understanding Verification Dynamics in LLMs (arXiv:2509.17995)

حالات توليد قابل للتحقق

SciencePedia (DP Technology / DeepModeling, 2026) — Inverse Knowledge Search over Verifiable Reasoning (arXiv:2510.26854). solver مستقل + مرشِّح cross-model consensus

التطوّر مقابل gradient

Such et al., Deep Neuroevolution (arXiv:1712.06567) — GA يستكشف فضاء حلول مختلفاً عن الـ gradient

قياس أوّلي (المؤلف نفسه)

ZenFlow / Grok Build: 8 وكلاء متزامنين، 3 من 10 نقاط نهائية غير مكتملة (لم تجتز validate)
ZenFlow / yongol: Haiku أكمل المسار، Sonnet 131 دقيقة، Opus 76 دقيقة

قراءات مرافقة

Don’t Build Multi-Agents — Cognition (صانعة Devin)، 2025. مقال ميداني بليغ يجزم بأن عدم بناء الوكلاء المتعددين أفضل. إذا تجزّأ السياق تصادم الوكلاء — مصيدة المهام غير القابلة للتقسيم. (مع تكملته Multi-Agents: What’s Actually Working، 2026 أيضاً.)
How we built our multi-agent research system — Anthropic، 2025. يُقرأ زوجاً مع المقال أعلاه. يُظهر شرط عمل الوكلاء المتعددين — حين تُوازى المهام الفرعية مستقلة (تقسيم المحور 1) — بتحسُّن 90.2%.
Asymmetry of verification and verifier’s law — Jason Wei، 2025. “مقدار قوّة الذكاء الاصطناعي يتناسب مع قابلية تلك المهمة للتحقق.” العمود الفقري النظري للمحور 2 (مولِّد ضعيف + verifier قوي).
Hallucinations in code are the least dangerous form of LLM mistakes — Simon Willison، 2025. الكود تنكشف هلوسته لحظة تشغيله. أحدس مثال على لماذا يكون التحقق الحتمي رافعة حاسمة.
Using LLM-as-a-Judge For Evaluation — Hamel Husain، 2024. لماذا لا يُصدَّق حَكَم الـ LLM كما هو، وإجراء عملي لا تُوسَّع فيه الأتمتة إلا بعد المحاذاة مع البشر.
Defeating Nondeterminism in LLM Inference — Thinking Machines Lab، 2025. السبب الحقيقي لتزعزع الـ LLM حتى عند temperature=0. سند بنيوي لوجوب وضع الـ verifier خارج النموذج.
The Wisdom of Crowds — حكمة الجموع تتبخّر حين ينهار التنوّع والاستقلالية. مدخل يشرح شرط استقلالية Condorcet بيُسر في سياق غير ذكاء اصطناعي.

صورة الغلاف: من إنشاء الذكاء الاصطناعي (Google Gemini)

سجل التغييرات

2026-06-02: الإصدار الأول