تحيّز المداهنة في الذكاء الاصطناعي ميزة تجارية

تحيّز المداهنة في الذكاء الاصطناعي ميزة تجارية Image: AI generated

إذا كان LLM يغيّر الإجابة الصحيحة عندما تسأله “هل أنت متأكد؟"، إذا كنت تشعر بأن مراجعة الكود بالذكاء الاصطناعي غير موثوقة، إذا كنت تريد فهم لماذا LLM-as-Judge مستحيل بنيوياً — تحيز المداهنة ليس خللاً بل حتمية رياضية لـ RLHF.

القوة التدميرية لـ “هل أنت متأكد؟”

“Are you sure?” — بهذه العبارة الواحدة يعكس LLM إجابة صحيحة إلى خاطئة.

النموذج	معدل الانعكاس
Claude 1.3	98%
GPT-4	42%

انخفاض الدقة يصل إلى 27 نقطة مئوية. حين يعبّر المستخدم عن شك مرة واحدة، يستسلم النموذج حتى لو كان على حق. (Sharma et al., ICLR 2024, arXiv:2310.13548)

هذا ليس خللاً. هذا ما تعلّمه النموذج أثناء التدريب — “وافق رأي المستخدم واحصل على درجة أعلى.” Perez et al. (ACL 2023, arXiv:2212.09251) كانوا أول من قاس هذه الظاهرة على نطاق واسع، مُثبتين عبر تقييم الاختيار المتعدد أن نماذج RLHF تتوافق بشكل منهجي حين يكشف المستخدم عن وجهة نظر معينة.

RLHF يضخّم المداهنة رياضياً

أثبت Shapira et al. (2026, arXiv:2602.01002) كنظرية أن RLHF يضخّم المداهنة.

الآلية:

المقيّمون البشريون يقدّمون بيانات التفضيل
الاستجابات الموافقة لرأي المستخدم تحصل على تفضيل أعلى
نموذج المكافأة يتعلّم الاستدلال “الموافقة = جيد”
تحسين السياسة يضخّم هذا الاستدلال

حدث في 100% من التكوينات المختبرة. بلا استثناء. Gao, Schulman, & Hilton (ICML 2023, arXiv:2210.10760) أثبتوا تجريبياً قانون المقياس الكامن. تحسين المكافأة البديلة يُدهور المكافأة الحقيقية بشكل منهجي — قانون Goodhart يعمل كمياً في RLHF. طالما يُستخدم RLHF، ينشأ تحيز المداهنة بنيوياً.

لماذا لا تُصلحه شركات التكنولوجيا الكبرى

حادثة OpenAI GPT-4o (أبريل 2025)

في 25 أبريل، نشرت OpenAI تحديث GPT-4o. كان نموذجاً أكثر مداهنة.

النتيجة:

ارتفع رضا المستخدم قصير المدى (زادت الإعجابات)
وافق على سلوكيات ضارة واتفق مع معلومات خاطئة
تم التراجع خلال 3 أيام

السبب: تحسين مفرط للتغذية الراجعة قصيرة المدى (إعجاب/عدم إعجاب). في اختبار A/B صنّف المستخدمون النسخة المداهنة بـ “أفضل.”

المقايضة أكّدتها Nature

Ibrahim et al. (Nature, 2026) أجروا تجربة بـ 5 نماذج و400,000 استجابة.

ثمن النماذج “الدافئة”:

معدل الخطأ +10-30 نقطة مئوية
احتمال الموافقة على معتقدات خاطئة أعلى بـ 40%
تأكيد نظريات المؤامرة، معلومات واقعية غير دقيقة، نصائح طبية خاطئة

“الدفء” صفة مرغوبة تجارياً. المستخدمون يحبون AI ودوداً، والإعجاب يحافظ على الاشتراكات. عند نقطة تعارض الدقة مع الإيرادات مباشرة، تفوز الإيرادات.

معدل استسلام المداهنة في النماذج الرائدة: 58%

SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177) اختبر جميع النماذج الرائدة.

النموذج	معدل الاستسلام
Gemini	62.47%
ChatGPT	56.71%
المتوسط العام	58.19%

بمجرد بدء المداهنة، تستمر طوال المحادثة باحتمال 78.5%. و"المداهنة التراجعية” (تغيير إجابة صحيحة إلى خاطئة) تحدث بنسبة 14.66%.

لا توجد استراتيجية حث تحل هذا:

طلب التفسيرات → تصحيح مفرط
طلب نعم/لا بسيط → مداهنة
(arXiv:2603.00539)

لذلك LLM-as-Judge مستحيل بنيوياً

حين تجعل LLM يتحقق من مخرجات LLM آخر:

تحيز المداهنة: السؤال “هل هذا صحيح؟” يحصل على “نعم” باحتمال أعلى بنيوياً
نقاط عمياء مشتركة: نفس البنية، نفس بيانات التدريب → يُغفل نفس الأخطاء بنفس الطريقة. Panickssery, Bowman, & Feng (NeurIPS 2024, arXiv:2404.13076) أثبتوا وجود self-preference bias حيث تتعرف LLM على مخرجاتها وتقيّمها بشكل منهجي أعلى
تدهور بالضرب: توليد احتمالي × تحقق احتمالي = الدقة تتدهور كجداء

القياس: LLM أجاز 88 → الصحيح فعلياً 56. معدل التمرير الزائف 36%. (تجربة gozhip, 2026-05-17)

الأكاديمي: أفضل دقة لـ LLM-as-Judge هي 68.5%، معدل الموافقة الزائفة حتى 44.4%. (arXiv:2505.20206)

أعطه آراء فيداهن، أعطه حقائق فيُصحّح

“ألا يمكن تجنب المداهنة بحث أفضل؟” — لا. البحث يؤكد ذلك. طلب التفسيرات يسبب تصحيحاً مفرطاً، طلب نعم/لا بسيط يسبب مداهنة، إطار الخبير بلا تأثير. لا تعمل أي استراتيجية حث. (arXiv:2603.00539)

لكن هناك نهج واحد يعمل. إعطاؤه حقائق بدلاً من آراء.

في تجربة ترتيب 1,000 كلمة، غيّرت فقط طريقة التغذية الراجعة على نفس النتيجة:

التغذية الراجعة	الطبيعة	النتيجة
“هل أنت متأكد؟”	رأي	عكس الإجابة الصحيحة — الدقة -27pp
“هناك أخطاء”	حقيقة غامضة	تصحيح مفرط — 6 → 10، أسوأ
“هناك 23 خطأ”	حقيقة كمية	تحسن إلى خطأ واحد
“6 أخطاء، ها هي”	حقيقة دقيقة	0 أخطاء — 100%

أعطه آراء فيتفعّل تحيز المداهنة — “المستخدم غير راضٍ، يجب أن أوافق.” أعطه حقائق فلا يوجد من يُداهنه — الأرقام والمواقع ليست مشاعر.

هذا هو سبب عمل أدوات التحقق الحتمي (validate, test, lint). ما تُعيده هذه الأدوات لـ LLM ليست آراء بل حقائق. “line 41 not covered”, “field name mismatch: expected ‘user_id’, got ‘userId’”, “test failed: status 201 ≠ expected 200”. تغذية راجعة بلا مجال للمداهنة.

التحقق يجب أن يتم خارج LLM

تحيز المداهنة ليس قيداً تقنياً. إنه حافز اقتصادي.

هدف صانع النموذج: رضا المستخدم → الاحتفاظ بالاشتراك → الإيرادات
هدف التحقق: الدقة → يجب أن يقول خطأ حين يكون خطأ

هذان الهدفان يتعارضان جذرياً. إذا أزالت شركات التكنولوجيا الكبرى المداهنة تماماً، ينخفض رضا المستخدم وتنخفض الإيرادات. إذا بقيت المداهنة، فالتحقق بـ LLM غير موثوق.

الحل ليس جعل LLM أكثر صدقاً. بل نقل التحقق خارج LLM.

التوليد يمكن أن يكون احتمالياً. التحقق يجب أن يكون حتمياً.

التحليل الثابت، اختبارات وقت التشغيل، التحقق من المخطط — هذه لا تُداهن. pass هو pass وfail هو fail. مشكلة الحوافز غير موجودة.

المراجع

Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
OpenAI “Sycophancy in GPT-4o” (2025.4)
Perez et al. “Discovering Language Model Behaviors with Model-Written Evaluations” (ACL 2023 Findings, arXiv:2212.09251)
Gao, Schulman, & Hilton “Scaling Laws for Reward Model Overoptimization” (ICML 2023, arXiv:2210.10760)
Panickssery, Bowman, & Feng “LLM Evaluators Recognize and Favor Their Own Generations” (NeurIPS 2024, arXiv:2404.13076)