Reins Engineering — الذكاء الاصطناعي بلجام Image: AI generated

حصان بلا لجام


أدوات البرمجة بالذكاء الاصطناعي أصبحت سريعة. تسجيل الدخول في 30 ثانية. المدفوعات في دقيقتين. MVP يُشحن في ثلاثة أسابيع.

بعد ثلاثة أشهر، ينهار كل شيء.

الذكاء الاصطناعي “ينظّف” منطق الدفع فيغيّر حسابات الخصم. طلب إعادة هيكلة يغيّر أسماء حقول API العامة. إضافة ميزة جديدة تكسر المصادقة. وفقًا لبحث جامعة كارنيجي ميلون (MSR 2026)، تزداد تعقيدية الكود بشكل دائم بنسبة 41% بعد تبنّي أدوات البرمجة بالذكاء الاصطناعي. يُظهر تقرير Google DORA Report (2025) انخفاضًا بنسبة 7.2% في استقرار التسليم مع كل زيادة 25% في تبنّي الذكاء الاصطناعي.

المشكلة ليست أن الذكاء الاصطناعي غبي. المشكلة أنه لا يوجد لجام.


الأحزمة مجرد أسوار

ردّت الصناعة بـ"harness engineering". أدوات Linter، والمنسّقات، وCI/CD، وهيكل المشروع، وإرشادات البرمجة. أسوار تمنع الوكيل من الخروج.

الأسوار لا تحدد الاتجاه. مهما فعل الوكيل داخل السور — الكتابة فوق المنطق الحالي، تغيير الأنواع، تخطي انتقالات الحالة — يمرّ الـ linter. يمرّ المنسّق. يمرّ CI. يصل الكود إلى الإنتاج “نظيفًا لكن خاطئًا”.

السرج موضوع. الفارس ممتطٍ. لكن بلا لجام، يتمسك بفخذيه ويسقط بعد ثلاثة أشهر.


Reins Engineering

Reins Engineering هو نهج هندسي يمنح وكلاء الذكاء الاصطناعي عقودًا حتمية ويمنع التقدم عند انتهاك العقود.

يتكون من ثلاثة عناصر:

1. التغذية الراجعة الحتمية

أعطِ الوكيل حقائق، لا آراء. ليس “هذا يبدو غريبًا” بل “السطر 41: اسم الحقل غير متطابق، المتوقع ‘user_id’، الفعلي ‘userId’.” تغذية راجعة لا تترك مجالًا للمداهنة. وفقًا لدراسة TDAD (arxiv 2026)، تعليمات “طبّق TDD” الإجرائية تزيد الانحدارات سوءًا (6.08% → 9.94%)، بينما تقديم ملفات اختبار محددة في السياق يقلل الانحدارات بنسبة 70% (6.08% → 1.82%).

2. قفل العقود (Ratchet Pattern)

عندما يمرّ التحقق، اقفله. كود التحقق المكتوب بهذه الطريقة يُسمى ratchet code. اختبارات Hurl تعلن سلوك API بنص عادي، وتعمل عند كل commit في CI. الـ ratchet code الناجح لا يمكن حذفه. الوكيل يمكنه تغيير الكود بحرية، لكن لا يمكنه تغيير السلوك. يُقمع الانحراف هيكليًا.

3. فصل القرارات عن التنفيذ

ثلاثة أشياء مختلطة في الكود — قرارات المستخدم، منطق الأعمال، تفاصيل التنفيذ — يتم فصلها. القرارات تعيش في مواصفات تصريحية (OpenAPI، DDL، مخططات الحالة). التنفيذ يُولَّد بحرية بواسطة الذكاء الاصطناعي. لا يمكن للذكاء الاصطناعي أن يخلط القرارات بالتفاصيل ويكتب فوقها. بقاء القرارات يصبح مستقلًا عن حجم النموذج.


التطور

Prompt Engineering      → Say it well and it works
Context Engineering     → Give good context and it works
Harness Engineering     → Contain it with structure
Reins Engineering       → Steer it with direction

كل مرحلة وُلدت من قيود المرحلة السابقة. المطالبات وحدها افتقرت إلى الاتساق. السياق لم يمنع الوكيل من الانحراف. الأسوار لم تستطع منع الانجراف داخل المحيط.

Reins Engineering ليس سياجًا — إنه لجام. لا يقيّد حرية الوكيل؛ بل يضمن وصول الوكيل إلى الوجهة.


80 : 20

Reins Engineering لا يغطي كل شيء. لكنه يعرف بالضبط ما يغطيه.

حلّلت Deque Systems ما يقارب 300,000 مشكلة جودة في إمكانية الوصول عبر أكثر من 13,000 صفحة (2021). 57% كانت قابلة للأتمتة الكاملة، و23% تطلبت مساعدة الذكاء الاصطناعي، و20% لم يستطع الحكم عليها سوى البشر. إمكانية الوصول والكود مجالان مختلفان، لكنهما يتشاركان نفس البنية: “ما النسبة التي تستطيع الآلات الحكم عليها؟”

من خلال هذه العدسة، تتوزع جودة الكود كالتالي:

  • 57% — أرض السقّاطة. أعلن السلوك، والآلات تحكم على المخالفات دون سؤال. go test، Hurl، yongol check، filefunc validate.
  • 23% — أرض الحزام. Linters، المنسّقات، CI. الآلية حتمية، لكن عمق التحقق يبقى سطحياً. لا تلتقط صحة السلوك، لكنها تفرض البنية والأسلوب، فترفع جودة توليد الذكاء الاصطناعي.
  • 20% — أرض الإنسان. الملاءمة التجارية، تجربة المستخدم، التوجه المعماري.

Reins Engineering لا يحل محل الحزام. بل يمتطيه.

الحزام (حتمية سطحية)     23%
+ السقّاطة (حتمية سلوكية)   57%
──────────────────────
                         80%

يركّز البشر على الـ 20% المتبقية.


لماذا النماذج الأكبر ليست الحل

“GPT-6 سيحل الأمر.”

لن يفعل. المشكلة ليست ذكاء النموذج — إنها الوسيط. الكود كوسيط لا يميّز القرارات عن التنفيذ. أي نموذج يقرأ الكود يرى القرارات والتفاصيل مختلطة في نفس النص.

نموذج محلي بحجم 4.5B (Gemma4) مع تغذية راجعة حتمية + سياق أمثلة يحرر SSOTs بصفر أخطاء. نموذج متقدم يحرر كودًا خامًا ينتج انحرافًا. الفرق هو البنية، لا الذكاء.

لا تغيّر النموذج. أضف عقدًا.


الدليل

yongol هو تنفيذ Reins Engineering. يتحقق من تناسق 10 مواصفات تصريحية (SSOTs) بـ 287 قاعدة ويولّد الكود.

معيار ZenFlow — SaaS لأتمتة سير العمل متعدد المستأجرين. 32 نقطة نهاية، 14 جدولًا، 47 طلب Hurl. نجحت 11/11 مرحلة. إضافة الميزات لم تُبطئ شيئًا. الاختبارات الحالية لم تفشل أبدًا.

تم توليد backend عامل بنجاح باستخدام نموذج محلي 4.5B. التكلفة $0. بدون اتصال. اللجام يسد الفجوة التي يتركها حجم النموذج.


ليست أتمتة مراجعة بالذكاء الاصطناعي — بل أتمتة مراجعة بالكود

النهج السائد في الصناعة هو أتمتة المراجعة بالذكاء الاصطناعي. نموذج لغوي كبير يولّد الكود، ونموذج لغوي كبير آخر يراجعه. شخص سكران يسأل صديقه السكران “هل أنا سكران؟” معدل الرضوخ للمداهنة في النماذج المتقدمة هو 58%. معدل التمرير الكاذب لـ LLM-as-Judge هو 36%. اضرب التوليد الاحتمالي في التحقق الاحتمالي وستتدهور الدقة.

Reins Engineering هو أتمتة مراجعة بالكود. النموذج اللغوي الكبير يولّد، والكود الحتمي يتحقق. validate لا يداهن. go test لا يهلوس. قياس التغطية لا يكذب. النجاح نجاح والفشل فشل.

أتمتة مراجعة بالذكاء الاصطناعي:  LLM → تحقق LLM → مداهنة → تمرير كاذب → انحراف
أتمتة مراجعة بالكود:              LLM → تحقق الكود → حقائق → نجاح/فشل → تقارب

في عصر تولّد فيه وكلاء الذكاء الاصطناعي عشرات الأسطر في الثانية، لا يستطيع البشر قراءة كل الكود. لكن تفويض المراجعة للذكاء الاصطناعي يعني أن المداهنة تحل محل التحقق. عندما يتولى الكود الأجزاء القابلة للتحقق الآلي، يمكن للبشر التركيز فقط على القرارات التي لا تستطيع الآلات الحكم عليها — الملاءمة التجارية، تجربة المستخدم، التوجه المعماري.

المراجعة البشرية لا تصل إلى الصفر. بل يقل ألم المراجعة البشرية. ما يمكن للكود مراجعته يراجعه الكود، وما يحتاج مراجعة بشرية فقط يراجعه البشر.


حزام بلا لجام مجرد سياج

الذكاء الاصطناعي قوي بما فيه الكفاية بالفعل. ما ينقص هو الاتجاه.

ابنِ أسوارًا أعلى وسينحرف الوكيل أسرع داخلها. أمسك اللجام وسيركض الوكيل نحو الوجهة.

Reins Engineering — تحقق حتمي مُهيكل لوكلاء الذكاء الاصطناعي.


تقارب مستقل

Reins Engineering ليس استنتاجًا توصّل إليه شخص واحد. أشخاص لا يعرفون بعضهم البعض اصطدموا بنفس الجدار ووصلوا إلى نفس المبدأ.

episteme — طبقة تحكم معرفية لوكلاء الذكاء الاصطناعي، بناها باحث من UIUC. يفرض إنشاء Reasoning Surface على مستوى نظام الملفات قبل الإجراءات غير القابلة للتراجع. نفس المبدأ مثل ratchet، تنفيذ مختلف.

MagLab — خط أنابيب بحث فيزيائي بناه باحث في إلكترونيات الدوران من KAIST. الإعلان: “LLMs only reason and plan. They do not compute numbers, fabricate citations, or generate figure data.” الأدوات الحتمية تنتج جميع المخرجات الرقمية.

Manifesto — MEL (Manifesto Expression Language) لتعريف انتقالات حالة الواجهة الأمامية تصريحيًا. المبدأ الأساسي: “Agent proposes, World verifies.” الوكيل يقترح النية فقط؛ انتقالات الحالة يتم التحقق منها حتميًا.

NEKOWORK — بوابة أمان تفحص فروقات الكود المُولَّد بالذكاء الاصطناعي بقواعد حتمية قبل الدمج. تعمل بغض النظر عمّا إذا كان الكود مُولَّدًا بواسطة Claude Code أو Cursor أو Codex. النموذج اللغوي الكبير لا يحكم.

oh-my-kamisama — قائد متعدد الـCLI ينسّق بين Claude وCodex وGemini. يقرأ git diff الفعلي بدلاً من ادعاءات العاملين («diffs beat claims»)، ولا يعلن اكتمال المهمة إلا بعد نجاح اختبارات المشروع. كل تشغيل يُحفظ على القرص كأثرٍ قابل للتدقيق — لا كمحادثة تتلاشى.

المشاريع الخمسة تُلخَّص بنفس الجملة: التوليد يمكن أن يكون احتماليًا. التحقق يجب أن يكون حتميًا.


مقالات ذات صلة


References

  • Cursino, D. et al. (2026). “Speed at the Cost of Quality? The Impact of AI Coding on Software.” MSR 2026. arxiv.org/abs/2511.04427
  • Google Cloud (2025). DORA Report 2025. cloud.google.com
  • Wang, Z. et al. (2026). “TDAD: Test-Driven Agentic Development.” ACM AIWare 2026. arxiv.org/abs/2603.17973
  • Karpathy, A. (2026). “From Vibe Coding to Agentic Engineering.” thenewstack.io
  • Deque Systems (2021). “Automated Testing Study Identifies 57 Percent of Digital Accessibility Issues.” deque.com
  • Anthropic (2026). “Demystifying Evals for AI Agents.” anthropic.com

سجل التغييرات

  • 2026-05-23: النشر الأولي
  • 2026-05-27: إضافة قسم “تقارب مستقل” (episteme، MagLab، Manifesto، NEKOWORK)
  • 2026-05-28: قسم “80:20” — الحزام (23%) + السقّاطة (57%) = 80%، بيانات Deque التجريبية
  • 2026-05-31: إضافة oh-my-kamisama إلى التقارب المستقل