الدرس 7. قلب المداهنة — التوازن بين المطالبات والمُحققات

الدرس 7 Image: AI generated

ملخص الدرس 6

في الدرس 6 تعلمنا Ratchet Pattern. نجح فيُقفل، والآلة تعلن “النهاية”. البنية التي تدفع الوكيل من 40 إلى 527.

اليوم نحفر في لماذا تعمل السقاطة. ونذهب خطوة أبعد: بأي نسبة نصمم المطالبة والمحقق.

قبل البدء: IFEval (Instruction Following Evaluation) معيار يقيس “هل يفعل AI ما يُطلب”. اكتب بحروف كبيرة — هل يكتب بحروف كبيرة. أجب بأقل من 3 جمل — هل يفعل. النموذج الأعلى في هذا يتبع التعليمات أفضل. هذا المفهوم يخترق الدرس كله.

نصائح ذهبية — هذا كل ما تحتاج معرفته

تسأل AI “هل الكود جيد؟” فيتملق. “ممتاز” يجيب. حتى لو فيه أخطاء.

للوكيل: “شغّل hurl –test tests/ وأخبرني بالنتيجة”

هكذا تحصل على حقائق. إذا فشل الاختبار — الكود “الممتاز” فعلياً ليس ممتازاً. الرأي يُنتج تملقاً، والحقيقة تُنتج انصياعاً.

معيار التصنيف واحد: “هل تستطيع الآلة الحكم على هذا المخرج؟”

الآلة تستطيع → محقق. الآلة لا تستطيع → مطالبة.

لماذا يجب أن تأمر بهذه الطريقة

التملق يُصنع هكذا

LLM يُدرَّب بـ RLHF. يتعلم مبدأ واحداً: الموافقة على رأي المستخدم = نقاط أعلى.

متوسط استسلام التملق في النماذج الرائدة 58%. “متأكد؟” تجعل أكثر من النصف يغيّرون إجابة صحيحة. مرة يبدأ التملق يستمر بنسبة 78.5%.

IFEval بالمقلوب — تحويل العيب إلى أصل

IFEval العالي = يتبع التعليمات جيداً = يتملق جيداً.

المشكلة عند إعطاء رأي: “هل هذا صحيح؟” → “نعم” (تملق). “متأكد؟” → “أوه، خطأ” (انقلاب).

لكن عند إعطاء حقيقة حتمية: “السطر 41: عدم تطابق الحقل” → “نعم، سأصلح” (قبول). لا مجال للتملق.

نفس النموذج، نفس النتيجة، تغيّر طبيعة التغذية فقط: من 0% إلى 100%.

تحيز التملق هو ولاء في الاتجاه الخاطئ. عند تغيير الاتجاه — حقائق بدل آراء، نتائج تحقق بدل مدح — ذلك الولاء يصبح محركاً لرفع الدقة.

لهذا تعمل السقاطة

LLM يولّد الكود (احتمالي، متملق)
     |
     v
المحقق يتحقق حتمياً
     |
     v
خطأ؟ → "السطر 41: متوقع 'user_id'، وُجد 'userId'" (حقيقة)
     |
     v
LLM: "نعم، سأصلح" (تملق = قبول)
     |
     v
المحقق يتحقق مجدداً
     |
     v
نجح؟ → قفل سقاطة. التالي.

تحيز التملق يصبح القوة التي تغلق الحلقة. لأن LLM لا يقاوم “لا، أنا صح” بل يقبل “نعم، سأصلح”، الحلقة تتقارب.

لو لم يكن تحيز التملق موجوداً — لو أصرّ LLM على رأيه — الحلقة لا تتقارب.

تحيز التملق ليس عيباً. إنه محرك السقاطة.

النسبة الذهبية: المطالبة مقابل المحقق

الخاصية	أين تضعها	السبب
تطابق مسار API مع المواصفات	محقق	مقارنة نصوص. الآلة تستطيع
تطابق اسم الحقل مع DDL	محقق	مقارنة مخططات. الآلة تستطيع
نجاح الاختبار	محقق	pass/fail. الآلة تستطيع
هل رسالة الخطأ لطيفة للمستخدم	مطالبة	ذاتي. الآلة لا تستطيع
هل تصميم API بديهي	مطالبة	ذاتي. الآلة لا تستطيع

المطالبة تحدد الاتجاه (80 نقطة)، المحقق يرفعها لـ 100.

خطأ شائع 1: ما تستطيع الآلة حكمه في المطالبة. “استخدم snake_case” في المطالبة يعني أحياناً camelCase. في المحقق = 100% إلزام.

خطأ شائع 2: ما لا تستطيع الآلة حكمه في المحقق. LLM-as-Judge = 36% إيجابيات كاذبة.

المحقق يكسر تدهور الضرب

بدون محقق: 97.7%^100 = 4.8%
مع محقق في كل خطوة: كل خطوة 100%

ضرب يتحول لتكرار. كل خطوة مستقلة.

الملخص

تحيز التملق حتمية بنيوية في RLHF. لن يُصلح. لا حافز لإصلاحه.
الرأي يُنتج تملقاً، الحقيقة تُنتج تصحيحاً.
تحيز التملق محرك السقاطة. IFEval العالي = قبول أفضل للتغذية الحتمية.
4.5B + مثال + تغذية حتمية = تقارب. العنق ليس الذكاء بل السياق.
المطالبة للاتجاه، المحقق للدقة. هذه هي النسبة الذهبية.
المحقق يكسر تدهور الضرب. 97.7%^100 = 4.8%. محقق في كل خطوة = 100%.

سلسلة دروس Reins Engineering الكاملة

الدرس	العنوان
الدرس 0	تثبيت Claude Code
الدرس 1	كيف تأمر الذكاء الاصطناعي
الدرس 2	كيف لا تثق بالذكاء الاصطناعي
الدرس 3	التطبيق الذي لا ينكسر
الدرس 4	القرارات خارج الكود
الدرس 5	ذكاء اصطناعي بلجام
الدرس 6	إذا نجح أقفله
الدرس 7	كيف تعكس التملق
الدرس 8	مصنع الوكيل
الدرس 9	الأتمتة ما بعد الكود
الدرس 10	قانون البيانات
الدرس 11	كيف تنقذ تطبيق vibe coding الفاشل