
ملخص الدرس 6
في الدرس 6 تعلمنا Ratchet Pattern. نجح فيُقفل، والآلة تعلن “النهاية”. البنية التي تدفع الوكيل من 40 إلى 527.
اليوم نحفر في لماذا تعمل السقاطة. ونذهب خطوة أبعد: بأي نسبة نصمم المطالبة والمحقق.
قبل البدء: IFEval (Instruction Following Evaluation) معيار يقيس “هل يفعل AI ما يُطلب”. اكتب بحروف كبيرة — هل يكتب بحروف كبيرة. أجب بأقل من 3 جمل — هل يفعل. النموذج الأعلى في هذا يتبع التعليمات أفضل. هذا المفهوم يخترق الدرس كله.
نصائح ذهبية — هذا كل ما تحتاج معرفته
تسأل AI “هل الكود جيد؟” فيتملق. “ممتاز” يجيب. حتى لو فيه أخطاء.
للوكيل: “شغّل hurl –test tests/ وأخبرني بالنتيجة”
هكذا تحصل على حقائق. إذا فشل الاختبار — الكود “الممتاز” فعلياً ليس ممتازاً. الرأي يُنتج تملقاً، والحقيقة تُنتج انصياعاً.
معيار التصنيف واحد: “هل تستطيع الآلة الحكم على هذا المخرج؟”
الآلة تستطيع → محقق. الآلة لا تستطيع → مطالبة.
لماذا يجب أن تأمر بهذه الطريقة
التملق يُصنع هكذا
LLM يُدرَّب بـ RLHF. يتعلم مبدأ واحداً: الموافقة على رأي المستخدم = نقاط أعلى.
متوسط استسلام التملق في النماذج الرائدة 58%. “متأكد؟” تجعل أكثر من النصف يغيّرون إجابة صحيحة. مرة يبدأ التملق يستمر بنسبة 78.5%.
IFEval بالمقلوب — تحويل العيب إلى أصل
IFEval العالي = يتبع التعليمات جيداً = يتملق جيداً.
المشكلة عند إعطاء رأي: “هل هذا صحيح؟” → “نعم” (تملق). “متأكد؟” → “أوه، خطأ” (انقلاب).
لكن عند إعطاء حقيقة حتمية: “السطر 41: عدم تطابق الحقل” → “نعم، سأصلح” (قبول). لا مجال للتملق.
نفس النموذج، نفس النتيجة، تغيّر طبيعة التغذية فقط: من 0% إلى 100%.
تحيز التملق هو ولاء في الاتجاه الخاطئ. عند تغيير الاتجاه — حقائق بدل آراء، نتائج تحقق بدل مدح — ذلك الولاء يصبح محركاً لرفع الدقة.
لهذا تعمل السقاطة
LLM يولّد الكود (احتمالي، متملق)
|
v
المحقق يتحقق حتمياً
|
v
خطأ؟ → "السطر 41: متوقع 'user_id'، وُجد 'userId'" (حقيقة)
|
v
LLM: "نعم، سأصلح" (تملق = قبول)
|
v
المحقق يتحقق مجدداً
|
v
نجح؟ → قفل سقاطة. التالي.
تحيز التملق يصبح القوة التي تغلق الحلقة. لأن LLM لا يقاوم “لا، أنا صح” بل يقبل “نعم، سأصلح”، الحلقة تتقارب.
لو لم يكن تحيز التملق موجوداً — لو أصرّ LLM على رأيه — الحلقة لا تتقارب.
تحيز التملق ليس عيباً. إنه محرك السقاطة.
النسبة الذهبية: المطالبة مقابل المحقق
| الخاصية | أين تضعها | السبب |
|---|---|---|
| تطابق مسار API مع المواصفات | محقق | مقارنة نصوص. الآلة تستطيع |
| تطابق اسم الحقل مع DDL | محقق | مقارنة مخططات. الآلة تستطيع |
| نجاح الاختبار | محقق | pass/fail. الآلة تستطيع |
| هل رسالة الخطأ لطيفة للمستخدم | مطالبة | ذاتي. الآلة لا تستطيع |
| هل تصميم API بديهي | مطالبة | ذاتي. الآلة لا تستطيع |
المطالبة تحدد الاتجاه (80 نقطة)، المحقق يرفعها لـ 100.
خطأ شائع 1: ما تستطيع الآلة حكمه في المطالبة. “استخدم snake_case” في المطالبة يعني أحياناً camelCase. في المحقق = 100% إلزام.
خطأ شائع 2: ما لا تستطيع الآلة حكمه في المحقق. LLM-as-Judge = 36% إيجابيات كاذبة.
المحقق يكسر تدهور الضرب
بدون محقق: 97.7%^100 = 4.8%
مع محقق في كل خطوة: كل خطوة 100%
ضرب يتحول لتكرار. كل خطوة مستقلة.
الملخص
- تحيز التملق حتمية بنيوية في RLHF. لن يُصلح. لا حافز لإصلاحه.
- الرأي يُنتج تملقاً، الحقيقة تُنتج تصحيحاً.
- تحيز التملق محرك السقاطة. IFEval العالي = قبول أفضل للتغذية الحتمية.
- 4.5B + مثال + تغذية حتمية = تقارب. العنق ليس الذكاء بل السياق.
- المطالبة للاتجاه، المحقق للدقة. هذه هي النسبة الذهبية.
- المحقق يكسر تدهور الضرب. 97.7%^100 = 4.8%. محقق في كل خطوة = 100%.
مقالات ذات صلة
سلسلة دروس Reins Engineering الكاملة
| الدرس | العنوان |
|---|---|
| الدرس 1 | كيف تأمر الذكاء الاصطناعي |
| الدرس 2 | كيف لا تثق بالذكاء الاصطناعي |
| الدرس 3 | التطبيق الذي لا ينكسر |
| الدرس 4 | القرارات خارج الكود |
| الدرس 5 | ذكاء اصطناعي بلجام |
| الدرس 6 | إذا نجح أقفله |
| الدرس 7 | كيف تعكس التملق |
| الدرس 8 | مصنع الوكيل |
| الدرس 9 | الأتمتة ما بعد الكود |
| الدرس 10 | قانون البيانات |
مصادر الأدلة
- بحث تحيز التملق — متوسط استسلام 58.19%. حدوث 100%. استمرار 78.5%.
- حادثة GPT-4o للتملق أبريل 2025 — تراجع خلال 3 أيام.
- بحث نموذج “دافئ” — أخطاء +10~30 نقطة مئوية. موافقة على خطأ +40%.
- بحث LLM-as-Judge — أعلى دقة 68.5%، إيجابيات كاذبة حتى 44.4%.
- تجربة ترتيب 1000 كلمة — “متأكد؟” تخفض 27 نقطة. “6 أخطاء هنا” = 0 أخطاء = 100%.
- استراتيجيات المطالبة — لا تحل تحيز التملق.