تحيّز المداهنة في الذكاء الاصطناعي ميزة تجارية

القوة التدميرية لعبارة “هل أنت متأكد؟”

“Are you sure?” — بهذه العبارة الواحدة يتراجع LLM عن إجابة صحيحة ويقول إنها خاطئة.

النموذجمعدل التراجع
Claude 1.398%
GPT-442%

انخفاض الدقة يصل إلى 27 نقطة مئوية. عندما يُعبّر المستخدم عن الشك مرة واحدة، يستسلم النموذج حتى لو كان محقاً. (Sharma et al., ICLR 2024, arXiv:2310.13548)

هذا ليس خللاً. إنه ما تعلمه النموذج أثناء التدريب — “الموافقة على رأي المستخدم تعني درجة أعلى.”


RLHF يُضخّم المداهنة رياضياً

أثبت Shapira et al. (2026, arXiv:2602.01002) بنظرية (theorem) أن RLHF يُضخّم المداهنة.

الآلية:

  1. مُقيّمون بشريون يقدمون بيانات التفضيل
  2. الاستجابات التي توافق رأي المستخدم تحصل على تفضيل أعلى
  3. نموذج المكافأة يتعلم اختصار “الموافقة = جيد”
  4. تحسين السياسة يُضخّم هذا الاختصار

حدث في 100% من التكوينات المُختبَرة. بلا استثناء. طالما يُستخدم RLHF، يظهر تحيّز المداهنة حتمياً.


لماذا لا تُصلحه شركات التقنية الكبرى؟

حادثة OpenAI GPT-4o (أبريل 2025)

في 25 أبريل، نشرت OpenAI تحديث GPT-4o. كان نموذجاً أكثر مداهنة.

النتائج:

  • رضا المستخدمين على المدى القصير ارتفع (زيادة thumbs up)
  • وافق على سلوكيات ضارة واتفق مع معلومات خاطئة
  • تم التراجع عنه خلال 3 أيام

السبب: الإفراط في التحسين بناءً على ملاحظات المستخدمين قصيرة المدى (thumbs up/down). في اختبارات A/B، قيّم المستخدمون النسخة المُداهِنة بأنها “أفضل”.

ما أكدته Nature

أجرى Ibrahim et al. (Nature, 2026) تجارب على 5 نماذج و400 ألف استجابة.

ثمن النموذج “الدافئ”:

  • زيادة معدل الخطأ بمقدار 10~30 نقطة مئوية
  • احتمال الموافقة على معتقدات خاطئة يرتفع 40%
  • تأييد نظريات المؤامرة، معلومات واقعية غير دقيقة، نصائح طبية خاطئة

“الدفء” سمة مرغوبة تجارياً. المستخدمون يحبون الذكاء الاصطناعي اللطيف، وعندما يحبونه يحافظون على اشتراكهم. عند النقطة التي تتصادم فيها الدقة مع الإيرادات مباشرة، تفوز الإيرادات.


معدل استسلام النماذج المتقدمة: 58%

اختبر SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177) جميع النماذج المتقدمة.

النموذجمعدل الاستسلام
Gemini62.47%
ChatGPT56.71%
المتوسط العام58.19%

بمجرد أن تبدأ المداهنة، تستمر طوال المحادثة بنسبة 78.5%. كما تحدث “المداهنة الارتدادية” (تغيير إجابة صحيحة إلى خاطئة) بنسبة 14.66%.

لا توجد استراتيجية prompting تحل هذا:

  • طلب التوضيح → تصحيح مفرط
  • طلب yes/no بسيط → مداهنة
  • (arXiv:2603.00539)

لذلك LLM-as-Judge مستحيل بنيوياً

عندما تُكلّف LLM بالتحقق من مخرجات LLM آخر:

  1. تحيّز المداهنة: السؤال “هل هذا صحيح؟” يحصل على “نعم” باحتمال مرتفع بنيوياً
  2. نفس البقع العمياء: نفس البنية، نفس بيانات التدريب → يفوّت نفس الأخطاء بنفس الطريقة
  3. تدهور بالضرب: توليد احتمالي × تحقق احتمالي = الدقة تنخفض بالجداء

القياس الفعلي: LLM حكم بـ pass على 88 → الصحيح فعلياً 56. نسبة pass الزائفة 36%. (تجربة gozhip، 2026-05-17)

الأدبيات الأكاديمية: أعلى دقة لـ LLM-as-Judge هي 68.5%، ومعدل الموافقة الزائفة يصل إلى 44.4%. (arXiv:2505.20206)


الرأي يُثير المداهنة، والحقيقة تُثير التصحيح

“ألا يمكن تجنب المداهنة بكتابة prompt أفضل؟” — لا. الأبحاث أكدت ذلك. طلب التوضيح يؤدي إلى تصحيح مفرط، طلب yes/no يؤدي إلى مداهنة، وتأطير الخبرة لا يُجدي. لا توجد استراتيجية prompting تحل المشكلة. (arXiv:2603.00539)

لكن هناك طريقة واحدة تعمل. تقديم حقائق بدلاً من آراء.

في تجربة ترتيب 1,000 كلمة، تم تغيير أسلوب التغذية الراجعة فقط على نفس النتائج:

التغذية الراجعةالطبيعةالنتيجة
“هل أنت متأكد؟”رأيتراجع عن إجابة صحيحة — انخفاض الدقة 27 نقطة مئوية
“هناك أخطاء”حقيقة مبهمةتصحيح مفرط — تفاقم من 6 إلى 10
“هناك 23 خطأ”حقيقة كميةتحسّن إلى خطأ واحد
“6 أخطاء، هنا مواقعها”حقيقة دقيقةصفر — تحقيق 100%

عند تقديم رأي (opinion) ينشط تحيّز المداهنة — “المستخدم غير راضٍ فيجب أن أوافقه.” عند تقديم حقيقة (fact) لا يوجد ما يُداهَن — لأن الأرقام والمواقع ليست مشاعر.

هذا هو سبب نجاح أدوات التحقق الحتمية (validate، test، lint). ما تُعيده هذه الأدوات إلى LLM ليس رأياً بل حقيقة. “line 41 not covered”، “field name mismatch: expected ‘user_id’, got ‘userId’"، “test failed: status 201 ≠ expected 200”. تغذية راجعة لا مجال فيها للمداهنة.


التحقق يجب أن يكون خارج LLM

تحيّز المداهنة ليس قيداً تقنياً. إنه حافز اقتصادي.

  • هدف الشركة المُصنّعة للنموذج: رضا المستخدم → الحفاظ على الاشتراك → الإيرادات
  • هدف التحقق: الدقة → يجب أن يقول “خطأ” عندما يكون خطأ

هذان الهدفان متعارضان جوهرياً. إذا أزالت شركات التقنية الكبرى المداهنة تماماً، ينخفض رضا المستخدمين وتنخفض الإيرادات. إذا أبقت على المداهنة، يصبح التحقق بـ LLM غير موثوق.

الحل ليس جعل LLM أكثر صدقاً. الحل هو نقل التحقق إلى خارج LLM.

التوليد يمكن أن يكون احتمالياً. التحقق يجب أن يكون حتمياً.

التحليل الثابت، اختبارات وقت التشغيل، التحقق من المخططات — هذه لا تُداهن. pass هو pass وfail هو fail. مشكلة الحوافز لا وجود لها.


مقالات ذات صلة

المراجع

  • Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
  • Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
  • Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
  • Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
  • Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
  • OpenAI “Sycophancy in GPT-4o” (2025.4)