الدرس 7

ملخص الدرس 6

في الدرس 6 تعلمنا Ratchet Pattern. نجح فيُقفل، والآلة تعلن “النهاية”. البنية التي تدفع الوكيل من 40 إلى 527.

اليوم نحفر في لماذا تعمل السقاطة. ونذهب خطوة أبعد: بأي نسبة نصمم المطالبة والمحقق.

قبل البدء: IFEval (Instruction Following Evaluation) معيار يقيس “هل يفعل AI ما يُطلب”. اكتب بحروف كبيرة — هل يكتب بحروف كبيرة. أجب بأقل من 3 جمل — هل يفعل. النموذج الأعلى في هذا يتبع التعليمات أفضل. هذا المفهوم يخترق الدرس كله.


نصائح ذهبية — هذا كل ما تحتاج معرفته

تسأل AI “هل الكود جيد؟” فيتملق. “ممتاز” يجيب. حتى لو فيه أخطاء.

للوكيل: “شغّل hurl –test tests/ وأخبرني بالنتيجة”

هكذا تحصل على حقائق. إذا فشل الاختبار — الكود “الممتاز” فعلياً ليس ممتازاً. الرأي يُنتج تملقاً، والحقيقة تُنتج انصياعاً.

معيار التصنيف واحد: “هل تستطيع الآلة الحكم على هذا المخرج؟”

الآلة تستطيع → محقق. الآلة لا تستطيع → مطالبة.


لماذا يجب أن تأمر بهذه الطريقة

التملق يُصنع هكذا

LLM يُدرَّب بـ RLHF. يتعلم مبدأ واحداً: الموافقة على رأي المستخدم = نقاط أعلى.

متوسط استسلام التملق في النماذج الرائدة 58%. “متأكد؟” تجعل أكثر من النصف يغيّرون إجابة صحيحة. مرة يبدأ التملق يستمر بنسبة 78.5%.

IFEval بالمقلوب — تحويل العيب إلى أصل

IFEval العالي = يتبع التعليمات جيداً = يتملق جيداً.

المشكلة عند إعطاء رأي: “هل هذا صحيح؟” → “نعم” (تملق). “متأكد؟” → “أوه، خطأ” (انقلاب).

لكن عند إعطاء حقيقة حتمية: “السطر 41: عدم تطابق الحقل” → “نعم، سأصلح” (قبول). لا مجال للتملق.

نفس النموذج، نفس النتيجة، تغيّر طبيعة التغذية فقط: من 0% إلى 100%.

تحيز التملق هو ولاء في الاتجاه الخاطئ. عند تغيير الاتجاه — حقائق بدل آراء، نتائج تحقق بدل مدح — ذلك الولاء يصبح محركاً لرفع الدقة.

لهذا تعمل السقاطة

LLM يولّد الكود (احتمالي، متملق)
     |
     v
المحقق يتحقق حتمياً
     |
     v
خطأ؟ → "السطر 41: متوقع 'user_id'، وُجد 'userId'" (حقيقة)
     |
     v
LLM: "نعم، سأصلح" (تملق = قبول)
     |
     v
المحقق يتحقق مجدداً
     |
     v
نجح؟ → قفل سقاطة. التالي.

تحيز التملق يصبح القوة التي تغلق الحلقة. لأن LLM لا يقاوم “لا، أنا صح” بل يقبل “نعم، سأصلح”، الحلقة تتقارب.

لو لم يكن تحيز التملق موجوداً — لو أصرّ LLM على رأيه — الحلقة لا تتقارب.

تحيز التملق ليس عيباً. إنه محرك السقاطة.

النسبة الذهبية: المطالبة مقابل المحقق

الخاصيةأين تضعهاالسبب
تطابق مسار API مع المواصفاتمحققمقارنة نصوص. الآلة تستطيع
تطابق اسم الحقل مع DDLمحققمقارنة مخططات. الآلة تستطيع
نجاح الاختبارمحققpass/fail. الآلة تستطيع
هل رسالة الخطأ لطيفة للمستخدممطالبةذاتي. الآلة لا تستطيع
هل تصميم API بديهيمطالبةذاتي. الآلة لا تستطيع

المطالبة تحدد الاتجاه (80 نقطة)، المحقق يرفعها لـ 100.

خطأ شائع 1: ما تستطيع الآلة حكمه في المطالبة. “استخدم snake_case” في المطالبة يعني أحياناً camelCase. في المحقق = 100% إلزام.

خطأ شائع 2: ما لا تستطيع الآلة حكمه في المحقق. LLM-as-Judge = 36% إيجابيات كاذبة.

المحقق يكسر تدهور الضرب

بدون محقق: 97.7%^100 = 4.8%
مع محقق في كل خطوة: كل خطوة 100%

ضرب يتحول لتكرار. كل خطوة مستقلة.


الملخص

  1. تحيز التملق حتمية بنيوية في RLHF. لن يُصلح. لا حافز لإصلاحه.
  2. الرأي يُنتج تملقاً، الحقيقة تُنتج تصحيحاً.
  3. تحيز التملق محرك السقاطة. IFEval العالي = قبول أفضل للتغذية الحتمية.
  4. 4.5B + مثال + تغذية حتمية = تقارب. العنق ليس الذكاء بل السياق.
  5. المطالبة للاتجاه، المحقق للدقة. هذه هي النسبة الذهبية.
  6. المحقق يكسر تدهور الضرب. 97.7%^100 = 4.8%. محقق في كل خطوة = 100%.

مقالات ذات صلة

سلسلة دروس Reins Engineering الكاملة

الدرسالعنوان
الدرس 1كيف تأمر الذكاء الاصطناعي
الدرس 2كيف لا تثق بالذكاء الاصطناعي
الدرس 3التطبيق الذي لا ينكسر
الدرس 4القرارات خارج الكود
الدرس 5ذكاء اصطناعي بلجام
الدرس 6إذا نجح أقفله
الدرس 7كيف تعكس التملق
الدرس 8مصنع الوكيل
الدرس 9الأتمتة ما بعد الكود
الدرس 10قانون البيانات

مصادر الأدلة

  1. بحث تحيز التملق — متوسط استسلام 58.19%. حدوث 100%. استمرار 78.5%.
  2. حادثة GPT-4o للتملق أبريل 2025 — تراجع خلال 3 أيام.
  3. بحث نموذج “دافئ” — أخطاء +10~30 نقطة مئوية. موافقة على خطأ +40%.
  4. بحث LLM-as-Judge — أعلى دقة 68.5%، إيجابيات كاذبة حتى 44.4%.
  5. تجربة ترتيب 1000 كلمة — “متأكد؟” تخفض 27 نقطة. “6 أخطاء هنا” = 0 أخطاء = 100%.
  6. استراتيجيات المطالبة — لا تحل تحيز التملق.