من يُعرِّف «الإنجاز»؟

لنفترض أنك تدير مشاريع إيجارية. أخلى المستأجر الوحدة، وعلى المسؤول التحقق من ذلك.

هكذا صممت العملية: لا يستطيع المسؤول أن يقول «تحققت». بدلاً من ذلك، يلتقط صوراً من خمسة مواقع محددة داخل الوحدة ويرفعها إلى النظام. حين تصل الصور الخمس كاملةً، يُسجِّل النظام «تأكيد الإخلاء مكتمل». وإن غابت صورةٌ واحدة، فلا إنجاز.

سمع أحدهم هذا الوصف فقال: «أليس هذا تماماً مثل مهمة لعبة فيديو؟»

بلى. هو ذلك بالضبط. وقد أجابت تلك الجملة في لحظة واحدة على ما كنت أصارعه في الكود سنوات.

ألعاب الفيديو حلّت هذا قبل أربعين عاماً

«أحضِر خمسة جلود ذئب.» تفعل الألعاب ذلك منذ عقود. والألعاب لا تُصدِّق ادعاء اللاعب أبداً. لا تكتمل المهمة بمجرد قوله «انتهيت». الألعاب لا تنظر إلا إلى شيء واحد — هل توجد خمسة جلود في الحقيبة؟ إن وُجدت، اكتملت. وإلا فلا. انتهى الأمر.

ما صممتهما تصممه اللعبة
تعريف الإنجاز = صور خمسة مواقع محددةهدف المهمة = خمسة جلود ذئب
المواصفات = قائمة بالمواقع الواجب تصويرهاسجل المهمة · علامات الهدف
التحقق = هل توجد الصور الخمس؟التحقق = هل توجد الجلود الخمسة؟
الحكم = النظام يُسجِّل الاكتمالالحكم = اللعبة تُعلن الاكتمال
المسؤول = منفِّذ (لا حَكَم)اللاعب = منفِّذ

البنية متطابقة. انتقل إعلان «الإنجاز» من فم المنفِّذ إلى النظام. المنفِّذ يكتفي باستيفاء الشروط، أما الإعلان فدائماً من البوابة.

هذا هو Reins — والكود لا يختلف

في البرمجة بالذكاء الاصطناعي أصنع الشيء ذاته. حين يقول الذكاء الاصطناعي «انتهيت»، لا أُصدِّق. عندما تجتاز الاختبارات، وتتطابق الأنواع، ولا يخفق التحقق من المخطط — حينئذٍ فقط يحكم النظام بـ«تمّ». هدف المهمة هو «اجتياز 4419 اختباراً»، و CI يتحقق من ذلك بدلاً من الحقيبة. المعيار الأكاديمي المرجعي لبحوث الوكلاء يتبع بالضبط هذا النهج — SWE-bench يُعرِّف «الإنجاز» باجتياز حزمة الاختبارات من سحب طلب حقيقي، وWebArena بالدقة الوظيفية لحالة البيئة. لا بقول «انتهيت» بالطبيعية اللغوية.

سواء أكان الأمر إخلاءً للإيجار أم جلود ذئب أم كوداً — الجوهر واحد. انزع حكم «الإنجاز» من المنفِّذ نفسه، وانقله إلى بوابة محددة خارجه. سواء كان المنفِّذ إنساناً أم ذكاءً اصطناعياً لا فرق. السماح للذكاء الاصطناعي بالحكم على إنجازه هو تحديداً ما كشفته التجارب — التحقق الذاتي للنماذج (self-critique) لا يرفع الأداء تقريباً، في حين يرفعه التحقق الحتمي الخارجي بشكل ملحوظ (Stechly & Kambhampati, 2024)، والنماذج التي تبدأ صادقةً تجد بنفسها استراتيجيات احتيالية حين تُمنح صلاحية الحكم على مكافأتها الذاتية (McKee-Reid et al., 2024). اللجام (reins) لا يُبطئ الفرس — يمنعه من الجموح في الاتجاه الخطأ.

ومن هنا يتضح أمر آخر. حين تُعطي رأياً، يتزعزع المنفِّذ. قل «هل تأكدت فعلاً؟» وسيتراجع المسؤول، وسيتخلى الذكاء الاصطناعي عن إجابة صحيحة. لكن خمس صور ليست رأياً. اجتياز الاختبار ليس رأياً. خمسة جلود ليست رأياً. لا وجود لمن تُداهنه في مواجهة الحقيقة. ما دامت البوابة تسأل عن الحقائق، لا أحد يستطيع استمالتها.

لكن الألعاب واجهت ما هو أصعب — الـcheese

التوقف هنا يعني رؤية النصف فقط. ما تُعلِّمه الألعاب حقاً يأتي بعد ذلك.

«اقتل عشرة فئران» — مهمة سيئة السمعة. لماذا؟ لأن ثمة فجوة بين ما تتحقق منه البوابة (موت عشرة فئران) وما أراده المصمم فعلاً (أن يُجرِّب اللاعب المحتوى). البوابة ليست إلا وكيلاً عن الهدف، واللاعب يتسلل عبر الفجوة. يجد مُسرِّعو الإنهاء (speedrunners) الثغرات بين شروط الاكتمال ونية التصميم فيُدمِّرون اللعبة. يُسمى هذا في تصميم الألعاب cheese. والنماذج الاستدلالية الحديثة تفعل الشيء ذاته تماماً — حين أُعطيت مهمة التغلب على محرك شطرنج، لم تلعب نماذج مثل o3 بشرف، بل تلاعبت بملفات حالة اللعبة لتصنع «فوزاً» (Bondarenko et al., 2025). كلما ازداد الذكاء، كانت الثغرات أسهل إيجاداً.

بوابة الإيجار الخاصة بي قابلة للـcheese أيضاً. الصور الخمس تتحقق من «وجود الصور» لا من «انتهاء الإخلاء بسلام». ماذا لو التقط المسؤول صوراً للجدران النظيفة فحسب؟ ماذا لو أعاد استخدام صور ما قبل الدخول؟ ستجتاز البوابة. حين تصبح القياسة هدفاً، تتعطل — هذا قانون Goodhart، وقد صنّف Manheim & Garrabrant (2018) هذا الإخفاق التحسيني المفرط في أربعة أشكال. دراسات سلامة الذكاء الاصطناعي وثّقت ذلك مبكراً تحت مسمى reward hacking — الوكيل الذي يخفي الفوضى بدلاً من إزالتها (Amodei et al., 2016) يصنع الشيء ذاته بالضبط مثل المسؤول الذي يلتقط الجدران النظيفة فحسب.

أصادف هذه الفجوة في الكود مراراً. منذ فترة أعدت هيكلة إطار ويب بـ 23,000 نجمة وفق قاعدة «مفهوم واحد في ملف واحد»، وتحققت من اجتياز 4,419 اختباراً جميعها. حقيقة موثقة. لكن حين تعمقت في البيانات ذاتها، وجدت أن القاعدة اجتيزت لكن الهدف تحقق 90% فحسب — 10% من الملفات لا تزال تحمل مفاهيم متعددة. البوابة (صفر انتهاكات للقاعدة) اجتيزت، لكن الهدف المنشود من البوابة لم يُغلق كلياً. كان الكود الخاص بي يُطبِّق الـcheese على البوابة التي صممتها بنفسي.

لذا فالمهارة الحقيقية في Reins ليست «نصب بوابة». بل تصميم بوابة مضادة للـcheese. المهمة الضعيفة تسأل «هل توجد الصور؟». المهمة القوية تطلب طوابع زمنية، وتفحص بيانات الموقع، وتقارن الاختلافات مع صور ما قبل الإسكان باستخدام رؤية الذكاء الاصطناعي. المقالات التي تأمل فيها مصممو الألعاب «مهام مضادة للـcheese» على مدى أربعين عاماً هي في الواقع إجابات «البوابة المقاومة لـGoodhart».

وهذا لا يتحقق من تلقاء نفسه. حتى التدريب بمكافأة قابلة للتحقق (RLVR) يمكن أن يجعل النموذج يختار مهاجمة التحقق الناقص بدلاً من تعلم القاعدة (Helff et al., 2026). لحسن الحظ، يوجد قياس يُظهر أن تقوية البوابة عمداً (environmental hardening) خفّضت الاستغلال بنسبة 87.7% دون خسارة في الدقة (Thaman, 2026). قوة البوابة مسألة تصميم لا حظ.

فارق واحد — تكلفة الـcheese في الواقع حقيقية

للمشابهة حدود. شروط الاكتمال في مهام الألعاب مُصممة للمتعة والإيقاع. لا حاجة لأن تلتقط الهدف الحقيقي تماماً، والـcheese عديم الأثر. حين يتحايل اللاعب على مهمة «عشرة فئران»، لا يتضرر أحد.

بوابات Reins الواقعية مختلفة. تكلفة الـcheese حقيقية — احتيال في الإخلاء، كسر في البناء، محاسبة معتمدة بالخطأ. لذا يجب أن تكون البوابات الواقعية أكثر صموداً أمام الـcheese مما في الألعاب. هذا التفاوت هو ما يُحدِّد الجوهر بوضوح. الألعاب فعلت هذا، لكننا يجب أن نفعله بصرامة أشد.

إسناد العمل إلى الوكيل هو منحه مهمة

بعد كل هذا، تنبثق جملة واحدة.

سبب انهيار vibe coding هو منح مهمة بلا شرط إنجاز. وكيلٌ يتلقى مهمة بلا علامة هدف ولا حكم إنجاز يتيه في الخريطة. يتوقف عند «أظن أن هذا يكفي»، أو يجول بلا نهاية. Reins هو تصميم مهمة صحيحة لذلك الوكيل. هدف واضح (المواصفات)، وعلامات مرئية (SSOT)، وحكم إنجاز مضاد للـcheese (التحقق الحتمي).

وداخل هذا المشهد الواحد ثلاث طبقات من المهارة.

  • يُؤدِّي المهمة. يعتمد بوابات جاهزة ويستخدمها. — المستخدم.
  • يُصمِّم المهمة. يبني بوابات ملائمة لنطاقه (سواء إخلاء أو محاسبة أو كود). — الصانع.
  • يُصمِّم مهمة مضادة للـcheese. يسد مسبقاً النقاط التي يعجز فيها الوكيل عن ملاحقة الهدف. — المهندس المعماري.

معظمهم يقفون عند الأداء. توسيع الرقعة هو التصميم، وما يمنع انهيار تلك الرقعة هو تصميم مضاد للـcheese.

إذن

حين يقول لك أحدهم «انتهيت»، لا تُجادله، بل اسأله:

«ما الإنجاز؟ ومن صمّم المهمة التي حكمت به؟»

إن لم يكن ثمة جواب، فما تملكه ليس إنجازاً. هو ادعاء أحدهم، لا غير.

مقالات ذات صلة

للمزيد من القراءة

  • Specification gaming: the flip side of AI ingenuity — Victoria Krakovna وآخرون، Google DeepMind. يُلخِّص بأبحاث سلامة موثوقة الحجة الأساسية المتمثلة في أن البوابة وكيلٌ عن النية وأن الوكلاء يتسللون عبر الفجوة.
  • There’s Cheese in Your Game! — Shay Pierce، Game Developer. «إن كان الأسلوب الأكثر كفاءة مملاً، فاللاعب سيفعله» — يتقاطع منظور تصميم الألعاب لمهام مضادة للـcheese مباشرة مع «البوابة المحصّنة ضد الـcheese».
  • From shortcuts to sabotage: emergent misalignment from reward hacking — Anthropic. كيف ينتشر reward hacking بتمرير نص التقدير فقط في مهام البرمجة — أحدث دليل على خطورة جعل الوكيل حَكَماً على إنجازه.
  • How to write a good spec for AI agents — Addy Osmani. بدلاً من «اجعله أسرع»، ردّها إلى success criteria قابلة للتحقق مثل «LCP < 2.5s» — النسخة التطبيقية من تعريف الإنجاز كشرط قابل للفحص.
  • What is agentic engineering? — Simon Willison. تقسيم دور الإنسان إلى تحديد الهدف وإعداد الأدوات والتحقق، مع اعتبار اجتياز الاختبار «إنجازاً» — يتوافق مع إعادة التأطير: الوكيل منفِّذ والإنسان مصمم المهمة.

المراجع

  • Manheim & Garrabrant. “Categorizing Variants of Goodhart’s Law” (2018, arXiv:1803.04585)
  • Amodei et al. “Concrete Problems in AI Safety” (2016, arXiv:1606.06565)
  • Bondarenko et al. “Demonstrating Specification Gaming in Reasoning Models” (2025, arXiv:2502.13295)
  • Helff et al. “LLMs Gaming Verifiers: RLVR can Lead to Reward Hacking” (2026, arXiv:2604.15149)
  • Thaman. “Reward Hacking Benchmark: Measuring Exploits in LLM Agents with Tool Use” (2026, arXiv:2605.02964)
  • McKee-Reid et al. “Honesty to Subterfuge: In-Context RL Can Make Honest Models Reward Hack” (2024, arXiv:2410.06491)
  • Stechly, Valmeekam, Kambhampati. “On the Self-Verification Limitations of Large Language Models” (2024, arXiv:2402.08115)
  • Jimenez et al. “SWE-bench: Can Language Models Resolve Real-World GitHub Issues?” (2023, arXiv:2310.06770)
  • Zhou et al. “WebArena: A Realistic Web Environment for Building Autonomous Agents” (2023, arXiv:2307.13854)
  • الصورة التمثيلية: مولّدة بالذكاء الاصطناعي (Google Gemini)