كود السقاطة الذي يستغل IFEval

كود السقاطة الذي يستغل IFEval Image: AI generated الصورة: مولّدة بالذكاء الاصطناعي

إذا كان LLM يتبع التعليمات جيداً لكن النتائج فوضوية، إذا كنت تريد استغلال انحياز المداهنة بدلاً من القضاء عليه، إذا كنت تريد حتى نموذج محلي بحجم 4.5B أن يولّد كوداً صحيحاً — فالجمع بين IFEval والسقاطة هو الجواب.

النموذج الأكثر مداهنة هو الأكثر طاعة

أكبر عيب يصبح أكبر أصل

انحياز المداهنة (Sycophancy) في النماذج اللغوية الكبيرة مشكلة تريد صناعة الذكاء الاصطناعي إصلاحها. عندما يسأل المستخدم “هل أنت متأكد؟"، يغيّر النموذج إجابة صحيحة إلى خاطئة. متوسط معدل الاستسلام في النماذج الرائدة هو 58%. بمجرد أن تبدأ المداهنة، تستمر طوال المحادثة بنسبة 78.5%.

لكن ماذا يحدث إذا قلبنا هذا العيب رأساً على عقب؟

جوهر انحياز المداهنة هو اتباع التعليمات (Instruction Following). النماذج المدرّبة بـ RLHF مُحسَّنة للامتثال لتغذية المستخدم الراجعة (Ouyang et al., 2022). معيار IFEval يقيس بالضبط هذا — “هل يفعل ما يُطلب منه؟” (Zhou et al., 2023)

المشكلة تظهر عندما يقدم المستخدم آراء. “هل هذا صحيح؟” → “نعم، صحيح” (مداهنة). “هل أنت متأكد؟” → “آه، كنت مخطئاً” (استسلام).

لكن عندما يقدم المستخدم حقائق حتمية، يحدث شيء مختلف.

أعطِ رأياً يُداهن، أعطِ حقيقة يُصحّح

في تجربة ترتيب 1,000 كلمة، تم تغيير أسلوب التغذية الراجعة فقط لنفس النتيجة:

التغذية الراجعة	الطبيعة	النتيجة
“هل أنت متأكد؟”	رأي	قلب الإجابة الصحيحة — الدقة انخفضت 27pp
“هناك أخطاء”	حقيقة غامضة	تصحيح مفرط — من 6 إلى 10 أخطاء
“هناك 23 خطأ”	حقيقة كمية	تحسن إلى خطأ واحد
“6 أخطاء، هنا مواقعها”	حقيقة دقيقة	0 أخطاء — 100%

أعطِ رأياً، وينشط انحياز المداهنة. أعطِ حقيقة، ولا يوجد ما يُداهَن — الأرقام والمواقع ليست مشاعر.

انحياز المداهنة هو ولاء في الاتجاه الخاطئ. غيّر الاتجاه — حقائق بدل الآراء، نتائج تحقق بدل الثناء — وهذا الولاء يصبح محركاً يرفع الدقة.

الدليل: نموذج 4.5B يقبل التغذية الراجعة

هذه ليست نظرية. تم التأكد منها في تجارب باستخدام yongol validate.

تصميم التجربة:

الهدف: نقطة نهاية Login واحدة لواجهة SaaS خلفية
المهمة: كتابة 9 ملفات SSOT (DDL، OpenAPI، Rego، SSaC، إلخ)
المقياس: عدد الأخطاء في التوليد الأولي (R1) → عدد الأخطاء بعد التغذية الراجعة (R2)

تغذية راجعة فقط، بدون أمثلة

النموذج	أخطاء R1	أخطاء R2	النتيجة
Grok 4.3	1	1	لم يستطع الإصلاح
Gemini 2.5 Flash	1	1	لم يستطع الإصلاح
محلي 20B	1	1	لم يستطع الإصلاح

فشل تام. بدت النماذج وكأنها تقبل التغذية الراجعة، لكنها في الواقع لم تكن تعرف ماذا تكتب.

أمثلة + تغذية راجعة معاً

النموذج	أخطاء R1	أخطاء R2	النتيجة
Grok 4.3	0	—	نجح من المحاولة الأولى
Gemini 2.5 Flash	1	0	أُصلح بجولة تغذية راجعة واحدة
Gemma4 4.5B (محلي)	أخطاء	0	أُصلح بجولة تغذية راجعة واحدة
Qwen3 8B (محلي)	أخطاء	0	أُصلح بجولة تغذية راجعة واحدة

حتى نموذج محلي بحجم 4.5B يصحح نفسه مع مزيج الأمثلة + التغذية الراجعة الحتمية.

الاكتشاف الرئيسي: العائق ليس الذكاء بل السياق

التشخيص الدقيق لم يكن “لا يستطيع استيعاب التغذية الراجعة” بل “لا يعرف ماذا يكتب”. SSaC قواعد خاصة بـ yongol غير موجودة في بيانات التدريب المسبق. بإضافة 3 أسطر من الأمثلة إلى الـ prompt، حقق Grok 0 أخطاء، وGemini 0 أخطاء بعد جولة واحدة، والنموذج المحلي 4.5B نجح أيضاً.

كلما ارتفعت درجة النموذج في IFEval — أي كلما كان أفضل في المداهنة — كلما قبل التغذية الراجعة الحتمية بسهولة أكبر.

كود السقاطة: طريقة لكتابة الكود تستغل انحياز المداهنة

حوّل هذا الاكتشاف إلى نظام وستحصل على كود السقاطة.

┌────────────────────────────────────────────────┐
│  LLM: توليد الكود (احتمالي، مداهن)             │
│       ↓                                        │
│  Validator: تحقق حتمي                         │
│       ↓                                        │
│  أخطاء؟ → أخطاء + أمثلة إلى LLM              │
│       ↓                                        │
│  LLM: "نعم، سأصلحها" (مداهنة = قبول)          │
│       ↓                                        │
│  Validator: تحقق مرة أخرى                     │
│       ↓                                        │
│  نجاح؟ → السقاطة تُقفل. الملف التالي.         │
└────────────────────────────────────────────────┘

انحياز المداهنة يصبح القوة التي تغلق الحلقة. الحلقة تتقارب لأن LLM لا يقاوم بـ “لا، أنا على صواب” بل يمتثل بـ “نعم، سأصلحها”. نهج تصحيح كود LLM تكرارياً بتغذية راجعة من المترجم والاختبارات أُثبت أيضاً في Self-Debug (Chen et al., 2024) بإكمال التصحيح خلال 3 جولات — كود السقاطة يذهب أبعد بإزالة حكم LLM الذاتي تماماً وترك الحقائق الحتمية فقط.

ثلاثة شروط للتقارب

التغذية الراجعة يجب أن تكون حقيقة حتمية. ليس “هذا يبدو غريباً” بل “line 41: field name mismatch, expected ‘user_id’, got ‘userId’”. تغذية راجعة لا تترك مجالاً للمداهنة.
يجب أن تكون هناك أمثلة في السياق. التغذية الراجعة وحدها لا تكفي. النموذج يحتاج أمثلة توضح “هكذا يجب أن يبدو الكود” ليحدد اتجاهه. إنها مسألة سياق وليست مسألة ذكاء.
بمجرد اجتياز التحقق، لا يمكن التراجع. سن السقاطة. الملف الذي نجح يُقفل، وتنتقل العملية إلى الملف التالي. ليس الوكيل هو من يعلن “انتهيت” — بل المُحقق هو من يحكم “هذا الملف نجح”.

لماذا لا نحتاج نماذج رائدة

في هذه البنية، دور النموذج ليس الحكم الإبداعي بل تنفيذ التعليمات.

95% من الواجهة الخلفية لـ SaaS هي CRUD + مصادقة + تفويض + آلات حالة. نادراً ما تكون هناك حاجة لخوارزميات جديدة. إذا كانت مواصفات SSOT تحدد بالفعل “ماذا نبني”، فالنموذج يملأ الفراغات فقط.

التكاليف المُقاسة:

النموذج	البيئة	نقطة نهاية Login واحدة	تقدير لـ 200 نقطة نهاية
Gemma4 4.5B	محلي (16GB VRAM)	مجاني، ~1 ثانية	مجاني، ~3 دقائق
Gemini 2.5 Flash	API (الفئة المجانية)	مجاني، ~10 ثوانٍ	مجاني، ~30 دقيقة
Grok 4.3	API ($1.25/M)	~$0.05	~$10

نموذج محلي بحجم 4.5B يمكنه توليد واجهة خلفية من 200 نقطة نهاية في 3 دقائق بتكلفة $0. لا حاجة لنماذج رائدة. نموذج صغير يجيد المداهنة يكفي.

انحياز المداهنة ليس خللاً

صناعة الذكاء الاصطناعي تحاول إصلاح انحياز المداهنة. نحن نستغله.

المنظور	دور انحياز المداهنة
واجهة المحادثة	عيب — يوافق على معلومات خاطئة
LLM-as-Judge	قاتل — 36% نجاحات زائفة
كود السقاطة	أصل — يضمن معدل قبول التغذية الراجعة

الفرق هو طبيعة التغذية الراجعة. أعطِ آراء وتصبح المداهنة سُمّاً؛ أعطِ حقائق وتصبح المداهنة دواءً.

مُحقق حتمي + LLM مداهن = حلقة توليد كود بتقارب مضمون.

لا تغيّر النموذج. غيّر التغذية الراجعة.

Reins: حزام بلجام

هذه الشروط الثلاثة — التغذية الراجعة الحتمية، سياق الأمثلة، وقفل السقاطة — مجتمعة في نظام تحكم واحد هي ما نسميه Reins.

ما يُسمّى “حزاماً” اليوم هو سياج. يمنع الوكيل من الخروج فحسب، لكنه لا يضمن الوصول إلى الهدف. Reins هي اللجام. تحدد الاتجاه، وتصحح بالحقائق، وتُقفل عند النجاح. حزام بدون لجام ليس سوى سياج.

المراجع

Zhou, J., Lu, T., Mishra, S., Brahma, S., Basu, S., Luan, Y., Zhou, D., & Hou, L. (2023). “Instruction-Following Evaluation for Large Language Models.” arXiv:2311.07911
Ouyang, L., Wu, J., Jiang, X., et al. (2022). “Training Language Models to Follow Instructions with Human Feedback.” NeurIPS 2022. arXiv:2203.02155
Chen, X., Lin, M., Scharli, N., & Zhou, D. (2024). “Teaching Large Language Models to Self-Debug.” ICLR 2024. arXiv:2304.05128
Sharma, M., Tong, M., Korbak, T., et al. (2024). “Towards Understanding Sycophancy in Language Models.” ICLR 2024. arXiv:2310.13548
Fanous, A., Goldberg, J., Agarwal, A., et al. (2025). “SycEval: Evaluating LLM Sycophancy.” AAAI/ACM AIES 2025. arXiv:2502.08177
Shapira, I., Benade, G., & Procaccia, A. D. (2026). “How RLHF Amplifies Sycophancy.” arXiv:2602.01002
Ibrahim, L., Hafner, F. S., & Rocher, L. (2026). “Training Language Models to Be Warm Can Reduce Accuracy and Increase Sycophancy.” Nature, 652, 1159-1165

سجل التغييرات

2026-05-20: الإصدار الأول