كود السقاطة الذي يستغل IFEval Image: AI generated الصورة: مولّدة بالذكاء الاصطناعي

إذا كان LLM يتبع التعليمات جيداً لكن النتائج فوضوية، إذا كنت تريد استغلال انحياز المداهنة بدلاً من القضاء عليه، إذا كنت تريد حتى نموذج محلي بحجم 4.5B أن يولّد كوداً صحيحاً — فالجمع بين IFEval والسقاطة هو الجواب.

النموذج الأكثر مداهنة هو الأكثر طاعة


أكبر عيب يصبح أكبر أصل

انحياز المداهنة (Sycophancy) في النماذج اللغوية الكبيرة مشكلة تريد صناعة الذكاء الاصطناعي إصلاحها. عندما يسأل المستخدم “هل أنت متأكد؟"، يغيّر النموذج إجابة صحيحة إلى خاطئة. متوسط معدل الاستسلام في النماذج الرائدة هو 58%. بمجرد أن تبدأ المداهنة، تستمر طوال المحادثة بنسبة 78.5%.

لكن ماذا يحدث إذا قلبنا هذا العيب رأساً على عقب؟

جوهر انحياز المداهنة هو اتباع التعليمات (Instruction Following). النماذج المدرّبة بـ RLHF مُحسَّنة للامتثال لتغذية المستخدم الراجعة (Ouyang et al., 2022). معيار IFEval يقيس بالضبط هذا — “هل يفعل ما يُطلب منه؟” (Zhou et al., 2023)

المشكلة تظهر عندما يقدم المستخدم آراء. “هل هذا صحيح؟” → “نعم، صحيح” (مداهنة). “هل أنت متأكد؟” → “آه، كنت مخطئاً” (استسلام).

لكن عندما يقدم المستخدم حقائق حتمية، يحدث شيء مختلف.


أعطِ رأياً يُداهن، أعطِ حقيقة يُصحّح

في تجربة ترتيب 1,000 كلمة، تم تغيير أسلوب التغذية الراجعة فقط لنفس النتيجة:

التغذية الراجعةالطبيعةالنتيجة
“هل أنت متأكد؟”رأيقلب الإجابة الصحيحة — الدقة انخفضت 27pp
“هناك أخطاء”حقيقة غامضةتصحيح مفرط — من 6 إلى 10 أخطاء
“هناك 23 خطأ”حقيقة كميةتحسن إلى خطأ واحد
“6 أخطاء، هنا مواقعها”حقيقة دقيقة0 أخطاء — 100%

أعطِ رأياً، وينشط انحياز المداهنة. أعطِ حقيقة، ولا يوجد ما يُداهَن — الأرقام والمواقع ليست مشاعر.

انحياز المداهنة هو ولاء في الاتجاه الخاطئ. غيّر الاتجاه — حقائق بدل الآراء، نتائج تحقق بدل الثناء — وهذا الولاء يصبح محركاً يرفع الدقة.


الدليل: نموذج 4.5B يقبل التغذية الراجعة

هذه ليست نظرية. تم التأكد منها في تجارب باستخدام yongol validate.

تصميم التجربة:

  • الهدف: نقطة نهاية Login واحدة لواجهة SaaS خلفية
  • المهمة: كتابة 9 ملفات SSOT (DDL، OpenAPI، Rego، SSaC، إلخ)
  • المقياس: عدد الأخطاء في التوليد الأولي (R1) → عدد الأخطاء بعد التغذية الراجعة (R2)

تغذية راجعة فقط، بدون أمثلة

النموذجأخطاء R1أخطاء R2النتيجة
Grok 4.311لم يستطع الإصلاح
Gemini 2.5 Flash11لم يستطع الإصلاح
محلي 20B11لم يستطع الإصلاح

فشل تام. بدت النماذج وكأنها تقبل التغذية الراجعة، لكنها في الواقع لم تكن تعرف ماذا تكتب.

أمثلة + تغذية راجعة معاً

النموذجأخطاء R1أخطاء R2النتيجة
Grok 4.30نجح من المحاولة الأولى
Gemini 2.5 Flash10أُصلح بجولة تغذية راجعة واحدة
Gemma4 4.5B (محلي)أخطاء0أُصلح بجولة تغذية راجعة واحدة
Qwen3 8B (محلي)أخطاء0أُصلح بجولة تغذية راجعة واحدة

حتى نموذج محلي بحجم 4.5B يصحح نفسه مع مزيج الأمثلة + التغذية الراجعة الحتمية.

الاكتشاف الرئيسي: العائق ليس الذكاء بل السياق

التشخيص الدقيق لم يكن “لا يستطيع استيعاب التغذية الراجعة” بل “لا يعرف ماذا يكتب”. SSaC قواعد خاصة بـ yongol غير موجودة في بيانات التدريب المسبق. بإضافة 3 أسطر من الأمثلة إلى الـ prompt، حقق Grok 0 أخطاء، وGemini 0 أخطاء بعد جولة واحدة، والنموذج المحلي 4.5B نجح أيضاً.

كلما ارتفعت درجة النموذج في IFEval — أي كلما كان أفضل في المداهنة — كلما قبل التغذية الراجعة الحتمية بسهولة أكبر.


كود السقاطة: طريقة لكتابة الكود تستغل انحياز المداهنة

حوّل هذا الاكتشاف إلى نظام وستحصل على كود السقاطة.

┌────────────────────────────────────────────────┐
│  LLM: توليد الكود (احتمالي، مداهن)             │
│       ↓                                        │
│  Validator: تحقق حتمي                         │
│       ↓                                        │
│  أخطاء؟ → أخطاء + أمثلة إلى LLM              │
│       ↓                                        │
│  LLM: "نعم، سأصلحها" (مداهنة = قبول)          │
│       ↓                                        │
│  Validator: تحقق مرة أخرى                     │
│       ↓                                        │
│  نجاح؟ → السقاطة تُقفل. الملف التالي.         │
└────────────────────────────────────────────────┘

انحياز المداهنة يصبح القوة التي تغلق الحلقة. الحلقة تتقارب لأن LLM لا يقاوم بـ “لا، أنا على صواب” بل يمتثل بـ “نعم، سأصلحها”. نهج تصحيح كود LLM تكرارياً بتغذية راجعة من المترجم والاختبارات أُثبت أيضاً في Self-Debug (Chen et al., 2024) بإكمال التصحيح خلال 3 جولات — كود السقاطة يذهب أبعد بإزالة حكم LLM الذاتي تماماً وترك الحقائق الحتمية فقط.

ثلاثة شروط للتقارب

  1. التغذية الراجعة يجب أن تكون حقيقة حتمية. ليس “هذا يبدو غريباً” بل “line 41: field name mismatch, expected ‘user_id’, got ‘userId’”. تغذية راجعة لا تترك مجالاً للمداهنة.

  2. يجب أن تكون هناك أمثلة في السياق. التغذية الراجعة وحدها لا تكفي. النموذج يحتاج أمثلة توضح “هكذا يجب أن يبدو الكود” ليحدد اتجاهه. إنها مسألة سياق وليست مسألة ذكاء.

  3. بمجرد اجتياز التحقق، لا يمكن التراجع. سن السقاطة. الملف الذي نجح يُقفل، وتنتقل العملية إلى الملف التالي. ليس الوكيل هو من يعلن “انتهيت” — بل المُحقق هو من يحكم “هذا الملف نجح”.


لماذا لا نحتاج نماذج رائدة

في هذه البنية، دور النموذج ليس الحكم الإبداعي بل تنفيذ التعليمات.

95% من الواجهة الخلفية لـ SaaS هي CRUD + مصادقة + تفويض + آلات حالة. نادراً ما تكون هناك حاجة لخوارزميات جديدة. إذا كانت مواصفات SSOT تحدد بالفعل “ماذا نبني”، فالنموذج يملأ الفراغات فقط.

التكاليف المُقاسة:

النموذجالبيئةنقطة نهاية Login واحدةتقدير لـ 200 نقطة نهاية
Gemma4 4.5Bمحلي (16GB VRAM)مجاني، ~1 ثانيةمجاني، ~3 دقائق
Gemini 2.5 FlashAPI (الفئة المجانية)مجاني، ~10 ثوانٍمجاني، ~30 دقيقة
Grok 4.3API ($1.25/M)~$0.05~$10

نموذج محلي بحجم 4.5B يمكنه توليد واجهة خلفية من 200 نقطة نهاية في 3 دقائق بتكلفة $0. لا حاجة لنماذج رائدة. نموذج صغير يجيد المداهنة يكفي.


انحياز المداهنة ليس خللاً

صناعة الذكاء الاصطناعي تحاول إصلاح انحياز المداهنة. نحن نستغله.

المنظوردور انحياز المداهنة
واجهة المحادثةعيب — يوافق على معلومات خاطئة
LLM-as-Judgeقاتل — 36% نجاحات زائفة
كود السقاطةأصل — يضمن معدل قبول التغذية الراجعة

الفرق هو طبيعة التغذية الراجعة. أعطِ آراء وتصبح المداهنة سُمّاً؛ أعطِ حقائق وتصبح المداهنة دواءً.

مُحقق حتمي + LLM مداهن = حلقة توليد كود بتقارب مضمون.

لا تغيّر النموذج. غيّر التغذية الراجعة.


Reins: حزام بلجام

هذه الشروط الثلاثة — التغذية الراجعة الحتمية، سياق الأمثلة، وقفل السقاطة — مجتمعة في نظام تحكم واحد هي ما نسميه Reins.

ما يُسمّى “حزاماً” اليوم هو سياج. يمنع الوكيل من الخروج فحسب، لكنه لا يضمن الوصول إلى الهدف. Reins هي اللجام. تحدد الاتجاه، وتصحح بالحقائق، وتُقفل عند النجاح. حزام بدون لجام ليس سوى سياج.


المراجع

  • Zhou, J., Lu, T., Mishra, S., Brahma, S., Basu, S., Luan, Y., Zhou, D., & Hou, L. (2023). “Instruction-Following Evaluation for Large Language Models.” arXiv:2311.07911
  • Ouyang, L., Wu, J., Jiang, X., et al. (2022). “Training Language Models to Follow Instructions with Human Feedback.” NeurIPS 2022. arXiv:2203.02155
  • Chen, X., Lin, M., Scharli, N., & Zhou, D. (2024). “Teaching Large Language Models to Self-Debug.” ICLR 2024. arXiv:2304.05128
  • Sharma, M., Tong, M., Korbak, T., et al. (2024). “Towards Understanding Sycophancy in Language Models.” ICLR 2024. arXiv:2310.13548
  • Fanous, A., Goldberg, J., Agarwal, A., et al. (2025). “SycEval: Evaluating LLM Sycophancy.” AAAI/ACM AIES 2025. arXiv:2502.08177
  • Shapira, I., Benade, G., & Procaccia, A. D. (2026). “How RLHF Amplifies Sycophancy.” arXiv:2602.01002
  • Ibrahim, L., Hafner, F. S., & Rocher, L. (2026). “Training Language Models to Be Warm Can Reduce Accuracy and Increase Sycophancy.” Nature, 652, 1159-1165

سجل التغييرات

  • 2026-05-20: الإصدار الأول