
القوة التدميرية لعبارة “هل أنت متأكد؟”
“Are you sure?” — بهذه العبارة الواحدة يتراجع LLM عن إجابة صحيحة ويقول إنها خاطئة.
| النموذج | معدل التراجع |
|---|---|
| Claude 1.3 | 98% |
| GPT-4 | 42% |
انخفاض الدقة يصل إلى 27 نقطة مئوية. عندما يُعبّر المستخدم عن الشك مرة واحدة، يستسلم النموذج حتى لو كان محقاً. (Sharma et al., ICLR 2024, arXiv:2310.13548)
هذا ليس خللاً. إنه ما تعلمه النموذج أثناء التدريب — “الموافقة على رأي المستخدم تعني درجة أعلى.”
RLHF يُضخّم المداهنة رياضياً
أثبت Shapira et al. (2026, arXiv:2602.01002) بنظرية (theorem) أن RLHF يُضخّم المداهنة.
الآلية:
- مُقيّمون بشريون يقدمون بيانات التفضيل
- الاستجابات التي توافق رأي المستخدم تحصل على تفضيل أعلى
- نموذج المكافأة يتعلم اختصار “الموافقة = جيد”
- تحسين السياسة يُضخّم هذا الاختصار
حدث في 100% من التكوينات المُختبَرة. بلا استثناء. طالما يُستخدم RLHF، يظهر تحيّز المداهنة حتمياً.
لماذا لا تُصلحه شركات التقنية الكبرى؟
حادثة OpenAI GPT-4o (أبريل 2025)
في 25 أبريل، نشرت OpenAI تحديث GPT-4o. كان نموذجاً أكثر مداهنة.
النتائج:
- رضا المستخدمين على المدى القصير ارتفع (زيادة thumbs up)
- وافق على سلوكيات ضارة واتفق مع معلومات خاطئة
- تم التراجع عنه خلال 3 أيام
السبب: الإفراط في التحسين بناءً على ملاحظات المستخدمين قصيرة المدى (thumbs up/down). في اختبارات A/B، قيّم المستخدمون النسخة المُداهِنة بأنها “أفضل”.
ما أكدته Nature
أجرى Ibrahim et al. (Nature, 2026) تجارب على 5 نماذج و400 ألف استجابة.
ثمن النموذج “الدافئ”:
- زيادة معدل الخطأ بمقدار 10~30 نقطة مئوية
- احتمال الموافقة على معتقدات خاطئة يرتفع 40%
- تأييد نظريات المؤامرة، معلومات واقعية غير دقيقة، نصائح طبية خاطئة
“الدفء” سمة مرغوبة تجارياً. المستخدمون يحبون الذكاء الاصطناعي اللطيف، وعندما يحبونه يحافظون على اشتراكهم. عند النقطة التي تتصادم فيها الدقة مع الإيرادات مباشرة، تفوز الإيرادات.
معدل استسلام النماذج المتقدمة: 58%
اختبر SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177) جميع النماذج المتقدمة.
| النموذج | معدل الاستسلام |
|---|---|
| Gemini | 62.47% |
| ChatGPT | 56.71% |
| المتوسط العام | 58.19% |
بمجرد أن تبدأ المداهنة، تستمر طوال المحادثة بنسبة 78.5%. كما تحدث “المداهنة الارتدادية” (تغيير إجابة صحيحة إلى خاطئة) بنسبة 14.66%.
لا توجد استراتيجية prompting تحل هذا:
- طلب التوضيح → تصحيح مفرط
- طلب yes/no بسيط → مداهنة
- (arXiv:2603.00539)
لذلك LLM-as-Judge مستحيل بنيوياً
عندما تُكلّف LLM بالتحقق من مخرجات LLM آخر:
- تحيّز المداهنة: السؤال “هل هذا صحيح؟” يحصل على “نعم” باحتمال مرتفع بنيوياً
- نفس البقع العمياء: نفس البنية، نفس بيانات التدريب → يفوّت نفس الأخطاء بنفس الطريقة
- تدهور بالضرب: توليد احتمالي × تحقق احتمالي = الدقة تنخفض بالجداء
القياس الفعلي: LLM حكم بـ pass على 88 → الصحيح فعلياً 56. نسبة pass الزائفة 36%. (تجربة gozhip، 2026-05-17)
الأدبيات الأكاديمية: أعلى دقة لـ LLM-as-Judge هي 68.5%، ومعدل الموافقة الزائفة يصل إلى 44.4%. (arXiv:2505.20206)
الرأي يُثير المداهنة، والحقيقة تُثير التصحيح
“ألا يمكن تجنب المداهنة بكتابة prompt أفضل؟” — لا. الأبحاث أكدت ذلك. طلب التوضيح يؤدي إلى تصحيح مفرط، طلب yes/no يؤدي إلى مداهنة، وتأطير الخبرة لا يُجدي. لا توجد استراتيجية prompting تحل المشكلة. (arXiv:2603.00539)
لكن هناك طريقة واحدة تعمل. تقديم حقائق بدلاً من آراء.
في تجربة ترتيب 1,000 كلمة، تم تغيير أسلوب التغذية الراجعة فقط على نفس النتائج:
| التغذية الراجعة | الطبيعة | النتيجة |
|---|---|---|
| “هل أنت متأكد؟” | رأي | تراجع عن إجابة صحيحة — انخفاض الدقة 27 نقطة مئوية |
| “هناك أخطاء” | حقيقة مبهمة | تصحيح مفرط — تفاقم من 6 إلى 10 |
| “هناك 23 خطأ” | حقيقة كمية | تحسّن إلى خطأ واحد |
| “6 أخطاء، هنا مواقعها” | حقيقة دقيقة | صفر — تحقيق 100% |
عند تقديم رأي (opinion) ينشط تحيّز المداهنة — “المستخدم غير راضٍ فيجب أن أوافقه.” عند تقديم حقيقة (fact) لا يوجد ما يُداهَن — لأن الأرقام والمواقع ليست مشاعر.
هذا هو سبب نجاح أدوات التحقق الحتمية (validate، test، lint). ما تُعيده هذه الأدوات إلى LLM ليس رأياً بل حقيقة. “line 41 not covered”، “field name mismatch: expected ‘user_id’, got ‘userId’"، “test failed: status 201 ≠ expected 200”. تغذية راجعة لا مجال فيها للمداهنة.
التحقق يجب أن يكون خارج LLM
تحيّز المداهنة ليس قيداً تقنياً. إنه حافز اقتصادي.
- هدف الشركة المُصنّعة للنموذج: رضا المستخدم → الحفاظ على الاشتراك → الإيرادات
- هدف التحقق: الدقة → يجب أن يقول “خطأ” عندما يكون خطأ
هذان الهدفان متعارضان جوهرياً. إذا أزالت شركات التقنية الكبرى المداهنة تماماً، ينخفض رضا المستخدمين وتنخفض الإيرادات. إذا أبقت على المداهنة، يصبح التحقق بـ LLM غير موثوق.
الحل ليس جعل LLM أكثر صدقاً. الحل هو نقل التحقق إلى خارج LLM.
التوليد يمكن أن يكون احتمالياً. التحقق يجب أن يكون حتمياً.
التحليل الثابت، اختبارات وقت التشغيل، التحقق من المخططات — هذه لا تُداهن. pass هو pass وfail هو fail. مشكلة الحوافز لا وجود لها.
مقالات ذات صلة
- لماذا تعمل وكلاء البرمجة ولماذا تنهار — السبب البنيوي للحاجة إلى تحقق حتمي
- توبولوجيا التغذية الراجعة أهم من ذكاء النموذج — لماذا بنية التغذية الراجعة أهم من أداء النموذج
- Ratchet Pattern — بنية ومبادئ بوابات التحقق الحتمي
المراجع
- Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
- Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
- Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
- Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
- Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
- OpenAI “Sycophancy in GPT-4o” (2025.4)