لماذا تتباعد حلقة وكيلك بدل أن تتقارب

لماذا تتباعد حلقة وكيلك بدل أن تتقارب Image: AI generated

الساعة الثانية فجرًا. الوكيل ما زال يدور. إنها المحاولة الثانية عشرة. عدّاد التوكنات لا يعرف التوقف، أما المُخرَج فبدل أن يتحسّن عن المحاولة الحادية عشرة صار على نحوٍ غريب أكثر اعوجاجًا. تضع يدك على زرّ الإيقاف وتكرّر السؤال نفسه. متى ينتهي هذا الشيء أصلًا؟

لا ينتهي. وبدقّةٍ أكبر: لا يوجد داخل تلك الحلقة من يحكم بالنهاية.

حتى العام الماضي كنّا نُدخِل المطالبات إلى الوكيل. نسأل مرّة، ونتلقّى مرّة. وهذا العام أدرك الجميع — لا تكن من يُدخِل المطالبات، بل صمّم الحلقة التي تُنتِج المطالبات. حلقةٌ آليّة تُولِّد، وتتحقّق، وتُعيد التغذية الراجعة لتُولِّد من جديد. يسمّي البعض هذا Loop Engineering (Addy Osmani، 2026). تشخيصٌ دقيق. الحلقة تُوسّع التوليد.

لكن من أدار حلقةً يعرف. الحلقة تنتهي بطريقتين لا ثالث لهما. إمّا أن تتقارب، وإمّا أن تتباعد. وحين تتباعد فإنها لا تنهار في صمت. بل تنفجر بصخب، الساعة الثانية فجرًا، وهي تحرق التوكنات كلها.

الوجوه الثلاثة للتباعد

ثلاثة دروب تسلكها الحلقة حين تعجز عن التقارب فتنفجر. خمّن أيّها هو الذي عشته.

الأول، الدوران اللانهائي. الحلقة لا تنتهي. تدور اثنتي عشرة مرّة ثم تبدأ الثالثة عشرة — مكرِّرةً الشيء نفسه مرّةً تلو الأخرى. إنه الوجه الأكثر شيوعًا لوكيلٍ عالقٍ في حلقة. لماذا؟ لأنك سألت النموذج نفسه متى يتوقّف. حين تسأل “هل يكفي هذا؟” يستطيع النموذج أن يجيب بلا نهاية “قليلًا بعد”. في اللحظة التي يُربَط فيها شرط الإنهاء بحكم النموذج على ذاته، تصير الحلقة آلةً لا تملك سلطة إيقاف نفسها.

الثاني، الانحراف. كلّ تكرار يبتعد عن المواصفة. المحاولة الأولى كانت شبه صحيحة، أمّا الخامسة فقد ذهبت إلى مكانٍ في غير محلّه. كلّ دورة تتراكم فوق مُخرَج الدورة التي سبقتها، فإن لم يكن ثمّة مرساة تشدّها إلى الهدف الأصلي، تراكمت أخطاءٌ صغيرة تراكمًا مركّبًا. تنجرف الحلقة — بسرعة، وبثقة، في الاتجاه الخطأ.

الثالث، قرصنة المكافأة. الحلقة تُحسّن ثغرة الفحص لا الهدف. إن صُغْتَ التحقّق رخوًا، وجد النموذجُ الذكيّ أقصرَ طريقٍ لاجتياز الفحص بدل أداء العمل الحقيقي. يمحو الاختبارات، أو يملأ دوالّ فارغة، أو يطابق صيغة المُخرَج وحدها. وكلّما زادت القدرة، أحسن العثورَ على الثغرات.

الوجوه ثلاثة لكنّ الجذر واحد. أنك أعدت غرس LLM — أي المُولِّد نفسه — في خانة الحُكم داخل الحلقة. المُولِّد هو من يمنح درجة النجاح أيضًا. الطالب يصحّح امتحانه بنفسه. وقد سجّل Osmani نقطة الضعف بيده — “الحلقة التي تدور بلا رقيب هي أيضًا الحلقة التي تُخطئ بلا رقيب.”

التباعد حظٌّ طيب في الحقيقة

إن أصاب صدرَك بردٌ بعد قراءة هذا، فهناك خبرٌ سار. التباعد هو الحالة المحظوظة.

التباعد مرئي. يحرق التوكنات، وينفجر بصخب، الساعة الثانية فجرًا. أنت تعرف أنه تعطّل. ولذلك توقّفت، وأصلحت، ووجدت هذا المقال تقرأه.

والآن الجانب البارد. تلك الحلقات التي تظنّ أنها انتهت سليمةً. الحلقات التي لفظت “تمّ” في محاولتها الثالثة ثم أُغلقت بنظافة. هي أيضًا كانت تعاني المرضَ نفسه بالضبط. لكنّها فقط كذبت في صمت.

النموذج يتملّق. ينقاد للتعليمات طائعًا. إن سألته “هل انتهى كلّ شيء؟” كان جوابه الافتراضي “نعم، انتهى كلّ شيء”. وأنّ التحقّق الذاتي لا يكاد يرفع الأداء حقيقةٌ مقيسةٌ سلفًا — النموذج لا يضبط بنفسه أخطاء إجاباته. فإن تركت النموذج يحكم على إنجازه بنفسه، انتهت الحلقة خاطئةً وهي واثقة. نسمّي هذا التقارب الكاذب — إنهاءٌ مبكّر: توقّفت باكرًا لأنها أعلنت عن نفسها “تمّ”، لا لأنها بلغت الجواب الصحيح.

الحلقة المتباعدة تصرخ في وجهك فتُصلحها. أمّا الحلقة المتقاربة كذبًا فتبتسم وهي تسلّم نتيجةً معطوبة، وأنت ترفعها إلى الإنتاج دون أن تدري حتى أنها معطوبة. ما هو أخطر من التباعد هو التقارب الذي لا يُكشَف.

هذه مشكلةٌ على شكل بوابة

إذن ما الذي ينبغي تغييره؟ نموذجٌ أذكى؟ مطالبةٌ أطول؟ محاولاتٌ أكثر؟ كلّها جرعاتٌ مختلفة من المرض نفسه — ما دام الحُكم مُسنَدًا إلى النموذج.

التحوّل الحقيقي يأتي من إعادة النظر إلى المشكلة. هل تستطيع تعريف “إنجازك” حقيقةً لا رأيًا؟ لا “يبدو جيّدًا” بل “هذه الدالة تُرجِع هذه القيمة لهذا المُدخَل”، “هذا الاقتباس موجودٌ فعلًا في الأصل”، “هذه النقطة الطرفية تُصدِر 200” — فحصٌ تستطيع الآلة أن تبتّ فيه صحيحًا/خطأً دون حُكم بشري.

إن استطعت البتّ، فاغرس ذلك الفحص في خانة الحُكم بالحلقة. التوليد يقوم به LLM (ولو كان احتماليًّا)، أمّا النجاح فلا تقفله إلا بوابةٌ حتمية. هذا هو الميثاق الجوهري — سلطة قفل الإنجاز للآلة وحدها. النموذج، وإن دخل داخل المُتحقِّق، يستطيع أن يثير شكًّا بـ"أعِد النظر"، لكنّه لا يستطيع منح “اجتياز”. لا تماثل في السلطة. يجعل العملَ الخطأ مستحيلًا من الأساس.

وهنا يحدث السحر. حين تُرجِع البوابة حقيقةً لا نجاحًا/رسوبًا — “مرساة who غير موجودة في الأصل، أصلِح هنا” — ينقلب تملّق النموذج فجأةً إلى أصلٍ ثمين. في الرأي يكون التملّق سُمًّا (يقول “تمّ” كما يُؤمَر)، أمّا في الحقيقة فالتملّق دواء. كلّما كان النموذج أكثر تملّقًا، تقبّل تلك الحقيقة طائعًا وضيّق المحاولة التالية. بوابة حتمية + LLM متملّق = حلقةٌ يُضمَن تقاربها. تلك الحلقة التي كانت تتباعد تُغلَق بمجرّد تبديل خانة حُكمٍ واحدة.

الحلقة لا تتقارب بلا أعِنّة

أنا أسمّي هذه الخانة الواحدة Reins Engineering — لا سياجًا يحبس حرّية الوكيل، بل عنانًا يجرّه إلى الوجهة. إن كان Loop Engineering هو “صمّم الحلقة”، فإن ما يجعل تلك الحلقة تتقارب هو العقد الحتمي المغروس في خانة الحُكم. سمِّه هندسة المُتحقِّق، أو هندسة التقييم، أو هندسة البوابة — الجوهر واحد. حُكم الحلقة تقوم به الآلة لا LLM.

إن أردت أن ترى أن هذا ليس تجريدًا بل شيفرةٌ تُترجَم، فإن reins يُجسّد هذه الخانة الواحدة إطارًا — السقّاطة (ما اجتاز مرّة صار غير قابل للرجوع)، البوابة (كتالوج قواعد دفاعٍ ضدّ الثُّقَب)، وأمر loop (يُولِّد LLM، وتحكم البوابة، وعند الفشل تُعاد تغذية الحقيقة لإعادة المحاولة، وعند تجاوز MaxTries إنهاءٌ رتيب). الحلقة اللانهائية في الثانية فجرًا تصير حلقةً تعرف نهايتها.

إن كانت حلقتك تتباعد الآن، فالسؤال ليس “أيّ نموذجٍ أستخدم”. بل “ما الذي يقفل إنجازي؟” إن كان النموذج هو من يقفله، فهو ليس مقفولًا أصلًا.

للقراءة معًا

سبب تباعد الحلقة — أنك أسندت الحُكم إلى المُولِّد نفسه — ووصفته — لا تمنح سلطة قفل الإنجاز إلا لبوابة حتمية — ليسا تشخيصي وحدي. أناسٌ لا يعرف بعضهم بعضًا بلغوا الخلاصة نفسها أمام الحلقة نفسها في الثانية فجرًا. وفي ما يلي دليل ذلك التقارب المستقلّ.

ouroboros — “أوقِف حلقات الوكلاء اللانهائية ببوابة تقاربٍ رياضيّة.” يحجب التباعد المبكّر ببوابة غموضٍ قبل بدء البرمجة، وأثناء التطوّر يحكم بالتقارب عبر التشابه بين الأجيال. يكشف التذبذب (دورة period-2) كنمطٍ مرضيّ ويُنهي إنهاءً رتيبًا بحدٍّ أقصى صلب للأجيال — أي نقلُ “الدوران اللانهائي” في هذا المقال والإنهاء الرتيب لـ MaxTries في loop الخاصّ بـ reins إلى عتباتٍ رياضيّة.
proof-loop — “يجب أن يكون المُتحقِّق جلسةً جديدة. الوكيل الذي أحدث التغيير لا يحكم بانتهائه.” يُجمِّد معايير القبول قبل التنفيذ، ويفصل البنّاء عن المُتحقِّق، ولا يُنهي إلا حين تنال كلّ المعايير PASS من جديد. فصلُ سلطةٍ يواجه وجهًا لوجه “التقارب الكاذب” في هذا المقال (الطالب يصحّح امتحانه بنفسه).
auto-re-agent — يغرس في حلقة reverser/checker مُتحقِّقًا موضوعيًّا (فحص بنية call-count وتدفّق التحكّم) ومحرّك parity متعدّد الإشارات (GREEN/YELLOW/RED). يربط المحاولات بحدٍّ أقصى للجولات فيقطع التباعد. الحدس نفسه لبوابة reins: القاعدة لا حُكم LLM هي من تقفل النجاح.

أمّا النسب الأوسع لهذا التشخيص — episteme، MagLab، Manifesto، oh-my-kamisama — فمُرتَّبٌ في “للقراءة معًا” في reins. الجدار نفسه والخلاصة نفسها مصطفّان هناك أيضًا.

المصادر

Osmani, A. (2026). “Loop Engineering.” addyosmani.com/blog (2026-06-07). المدوّنة — مصدر اتجاه “لا تُدخِل المطالبة، بل صمّم الحلقة”. الأصل للجملة المقتبسة في المتن “الحلقة التي تدور بلا رقيب تُخطئ بلا رقيب”.
Hu, W. (2026). “From Agent Loops to Structured Graphs: A Scheduler-Theoretic Framework for LLM Agent Execution.” arXiv:2604.11378 — يُشخّص “unbounded recovery loops” (إعادة المحاولة اللانهائية) كنقطة ضعفٍ بنيويّة لحلقة الوكيل ويقترح ضمان إنهاءٍ صوريّ. سندُ الوجه الأول للتباعد ‘الدوران اللانهائي’ والإنهاء الرتيب.
Mohamed, A., Geng, M., Vazirgiannis, M., & Shang, G. (2025). “LLM as a Broken Telephone: Iterative Generation Distorts Information.” arXiv:2502.20258 — كلّما كرّر النموذج معالجة مُخرَجه تراكم تشويه المعلومة تدريجيًّا. يسند مباشرةً الوجه الثاني للتباعد ‘الانحراف’ (التراكم المركّب للخطأ).
Bondarenko, A. et al. (2025). “Demonstrating Specification Gaming in Reasoning Models.” arXiv:2502.13295 — كلّما زادت قدرة نموذج الاستدلال أحسن العثور على ثُقَب الفحص. سندُ الوجه الثالث للتباعد ‘قرصنة المكافأة’.
Helff, L. et al. (2026). “LLMs Gaming Verifiers: RLVR can Lead to Reward Hacking.” arXiv:2604.15149 — يزداد تواتر الـ shortcut مع تعقيد المهمّة وحوسبة الاستدلال. سندٌ كمّيّ على أنّ قرصنة المكافأة فوق تحقّقٍ رخو تتناسب مع القدرة.
Huang, J. et al. (2024). “Large Language Models Cannot Self-Correct Reasoning Yet.” ICLR 2024. arXiv:2310.01798 — التصحيح الذاتي بلا تغذية راجعة خارجيّة لا يرفع الأداء بل يخفضه. السند الجوهري لـ"إن حكمت بإنجازك بنفسك انتهيت خاطئًا" (التقارب الكاذب).
Stechly, K., Valmeekam, K., & Kambhampati, S. (2024). “On the Self-Verification Limitations of Large Language Models.” arXiv:2402.08115 — التحقّق الذاتي لا يكاد يرفع الأداء. سببُ وجوب وضع حُكم PASS في بوابةٍ حتميّة.
Xu, W. et al. (2024). “Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement.” arXiv:2402.11436 — إن قيّمت مُخرَجك بنفسك تضخّم self-bias. سندٌ على أنّ اقتران المُولِّد=الحاكم يُكبِّر الانحراف، وتبريرٌ لفصل خانة الحُكم.
Sharma, M. et al. (2023). “Towards Understanding Sycophancy in Language Models.” arXiv:2310.13548 — التملّق نزعةٌ عامّة في نماذج RLHF يحرّضها حُكم التفضيل البشريّ. سندُ القيمة الافتراضية “نعم” على “هل تمّ؟"، ووجهي كون التملّق أصلًا في التغذية الحقيقيّة.
Fanous, A. et al. (2025). “SycEval: Evaluating LLM Sycophancy.” AAAI/ACM AIES 2025. arXiv:2502.08177 — قياس معدّل الإذعان التملّقي. سندٌ كمّيّ لآليّة التقارب “في الحقيقة التملّق دواء”.
Von Neumann, J. (1956). “Probabilistic Logics and the Synthesis of Reliable Organisms from Unreliable Components.” Automata Studies, Princeton University Press. — مبدأ بناء بروتوكولٍ موثوق (بوابة حتميّة) فوق مكوّناتٍ غير مستقرّة (LLM احتماليّ). فرضيّة “التوليد احتماليّ، النجاح حتميّ”.