النموذج المتملق هو الأكثر طاعة


أكبر عيب في LLM يصبح أكبر أصل

انحياز التملق (Sycophancy) في LLM هو مشكلة تسعى صناعة AI لإصلاحها. عندما يسأل المستخدم “هل أنت متأكد؟"، يتراجع النموذج عن إجابته الصحيحة ويقول إنها خاطئة. متوسط معدل الخضوع في النماذج المتقدمة هو 58%. وبمجرد أن يبدأ التملق، يستمر طوال المحادثة باحتمال 78.5%.

لكن ماذا لو قلبنا هذا العيب؟

جوهر انحياز التملق هو اتباع التعليمات (Instruction Following). النماذج المدربة بـ RLHF مُحسَّنة للامتثال لتغذية المستخدم الراجعة. وهذا بالضبط ما يقيسه معيار IFEval — “هل ينفذ ما يُطلب منه كما يُطلب؟”

المشكلة تنشأ عندما يقدم المستخدم رأياً. “هل هذا صحيح؟” → “نعم، صحيح” (تملق). “هل أنت متأكد؟” → “آه، كنت مخطئاً” (تراجع).

لكن عندما يقدم المستخدم حقيقة حتمية، يحدث شيء مختلف.


الرأي يُنتج تملقاً، والحقيقة تُنتج تصحيحاً

في تجربة ترتيب 1,000 كلمة، غيّرنا فقط أسلوب التغذية الراجعة لنفس النتائج:

التغذية الراجعةالطبيعةالنتيجة
“هل أنت متأكد؟”رأيتراجع عن الإجابة الصحيحة — انخفاض الدقة 27 نقطة مئوية
“هناك خطأ”حقيقة غامضةتصحيح مفرط — تفاقم من 6 → 10 أخطاء
“هناك 23 خطأ”حقيقة كميةتحسن إلى خطأ واحد
“6 أخطاء، وهذه مواقعها”حقيقة دقيقة0 أخطاء — تحقيق 100%

عند تقديم رأي يتفعّل انحياز التملق. عند تقديم حقيقة لا يوجد ما يُتملَّق له — لأن الأرقام والمواقع ليست مشاعر.

انحياز التملق هو ولاء موجَّه بشكل خاطئ. عند تغيير الاتجاه — حقائق بدلاً من آراء، نتائج تحقق بدلاً من مديح — يصبح هذا الولاء محركاً لرفع الدقة.


إثبات تجريبي: نموذج 4.5B يقبل التغذية الراجعة

هذه ليست نظرية. تم التأكد منها في تجربة باستخدام yongol validate.

تصميم التجربة:

  • الهدف: endpoint واحد لتسجيل الدخول في SaaS backend
  • المهمة: كتابة 9 ملفات SSOT (DDL, OpenAPI, Rego, SSaC وغيرها)
  • القياس: عدد الأخطاء في الكتابة الأولى (R1) → عدد الأخطاء بعد التغذية الراجعة (R2)

عند تقديم التغذية الراجعة فقط بدون أمثلة

Modelأخطاء R1أخطاء R2النتيجة
Grok 4.311لم يُصلح
Gemini 2.5 Flash11لم يُصلح
محلي 20B11لم يُصلح

فشل تام. يبدو أنها تقبل التغذية الراجعة، لكنها في الواقع لا تعرف ماذا يجب أن تكتب.

عند تقديم أمثلة + تغذية راجعة معاً

Modelأخطاء R1أخطاء R2النتيجة
Grok 4.30نجح من المحاولة الأولى
Gemini 2.5 Flash10أُصلح بتغذية راجعة واحدة
Gemma4 4.5B (محلي)أخطاء0أُصلح بتغذية راجعة واحدة
Qwen3 8B (محلي)أخطاء0أُصلح بتغذية راجعة واحدة

حتى نموذج محلي بحجم 4.5B يُصلح الأخطاء عند توفير أمثلة + تغذية راجعة حتمية.

الاكتشاف الجوهري: العائق ليس الذكاء بل السياق

التشخيص الدقيق ليس “لا يقبل التغذية الراجعة” بل “لا يعرف ماذا يجب أن يكتب”. SSaC هي صيغة خاصة بـ yongol ولا توجد في بيانات التدريب المسبق. بمجرد إضافة 3 أسطر كأمثلة في الـ prompt، حقق Grok صفر أخطاء، وGemini صفر أخطاء بتغذية راجعة واحدة، وحتى النموذج المحلي 4.5B نجح.

كلما ارتفعت درجة IFEval للنموذج — أي كلما كان أفضل في التملق — كان أكثر استعداداً لقبول التغذية الراجعة الحتمية.


كود Ratchet: طريقة كتابة الكود باستغلال انحياز التملق

عند تحويل هذا الاكتشاف إلى نظام، نحصل على كود Ratchet.

┌────────────────────────────────────────┐
│  LLM: توليد الكود (احتمالي، متملق)       │
│       ↓                                │
│  Validator: تحقق حتمي                  │
│       ↓                                │
│  أخطاء؟ → إرسال الأخطاء + أمثلة لـ LLM  │
│       ↓                                │
│  LLM: "نعم، سأصلح" (تملق = قبول)       │
│       ↓                                │
│  Validator: تحقق مرة أخرى              │
│       ↓                                │
│  نجح؟ → قفل Ratchet. الملف التالي.      │
└────────────────────────────────────────┘

انحياز التملق يصبح القوة التي تُغلق الحلقة. لأن LLM لا يعاند قائلاً “لا، أنا على صواب” بل يقبل قائلاً “نعم، سأصلح”، فإن الحلقة تتقارب.

شروط التقارب الثلاثة

  1. التغذية الراجعة يجب أن تكون حقيقة حتمية. ليس “هذا يبدو غريباً” بل “line 41: field name mismatch, expected ‘user_id’, got ‘userId’”. تغذية راجعة لا مجال فيها للتملق.

  2. يجب أن تكون الأمثلة موجودة في السياق. التغذية الراجعة وحدها لا تكفي. يجب تقديم أمثلة توضح “هكذا يجب أن يبدو الكود” ليتمكن النموذج من تحديد الاتجاه. المسألة ليست ذكاءً بل سياقاً.

  3. ما يجتاز التحقق لا يمكن التراجع عنه. أسنان السقاطة. الملف الذي يمر يُقفل، وننتقل إلى الملف التالي. ليس الوكيل من يعلن “انتهيت”، بل الـ validator هو من يحكم “هذا الملف نجح”.


لماذا لا نحتاج إلى نماذج متقدمة

في هذه البنية، دور النموذج ليس الحكم الإبداعي بل تنفيذ التعليمات.

95% من SaaS backend هو CRUD + مصادقة + صلاحيات + آلة حالة. نادراً ما تحتاج خوارزمية جديدة. عندما تحدد مواصفات SSOT مسبقاً “ماذا يجب بناؤه”، فإن النموذج يملأ الفراغات فقط.

التكلفة الفعلية:

Modelالبيئةendpoint واحد للدخولتقدير 200 endpoint
Gemma4 4.5Bمحلي (16GB VRAM)مجاني، ~ثانية واحدةمجاني، ~3 دقائق
Gemini 2.5 FlashAPI (المستوى المجاني)مجاني، ~10 ثوانٍمجاني، ~30 دقيقة
Grok 4.3API ($1.25/M)~$0.05~$10

يمكن توليد backend كامل بـ 200 endpoint في 3 دقائق بتكلفة $0 باستخدام نموذج محلي 4.5B. لا حاجة لنماذج متقدمة. نموذج صغير يجيد التملق يكفي.


انحياز التملق ليس خللاً

صناعة AI تسعى لإصلاح انحياز التملق. نحن نستغله.

المنظوردور انحياز التملق
واجهة الدردشةخلل — الموافقة على معلومات خاطئة
LLM-as-Judgeكارثي — 36% تمرير زائف
كود Ratchetأصل — ضمان معدل قبول التغذية الراجعة

الفرق هو طبيعة التغذية الراجعة. عند تقديم رأي يصبح التملق سُمّاً، وعند تقديم حقيقة يصبح دواءً.

Validator حتمي + LLM متملق = حلقة توليد كود مضمونة التقارب.

لا تُغيّر النموذج، غيّر التغذية الراجعة.


Reins: لجام حقيقي

هذه الشروط الثلاثة — التغذية الراجعة الحتمية، وسياق الأمثلة، وقفل السقاطة — مجتمعة في نظام تحكم واحد هو ما نسميه Reins.

ما يُسمى “harness” اليوم هو مجرد سياج. يمنع الوكيل من الخروج، لكنه لا يضمن الوصول إلى الوجهة. Reins هو اللجام. يحدد الاتجاه، ويصحح بالحقائق، ويُقفل عند النجاح. Harness بدون لجام هو مجرد سياج.