
אם ה-LLM שלכם משנה תשובה נכונה כששואלים “אתה בטוח?”, אם אתם מרגישים שבדיקת קוד על ידי AI לא אמינה, אם אתם רוצים להבין למה LLM-as-Judge בלתי אפשרי מבחינה מבנית – הטיית החנפנות היא לא באג אלא הכרח מתמטי של RLHF.
הכוח ההרסני של “בטוח?”
“Are you sure?” — בביטוי הזה בלבד, LLM הופך תשובה נכונה לשגויה.
| מודל | שיעור היפוך |
|---|---|
| Claude 1.3 | 98% |
| GPT-4 | 42% |
ירידת הדיוק מגיעה עד 27 נקודות אחוז. כשמשתמש מביע ספק פעם אחת, המודל נכנע גם כשהיה צודק. (Sharma et al., ICLR 2024, arXiv:2310.13548)
זה לא באג. זה מה שהמודל למד במהלך האימון — “להסכים עם דעת המשתמש נותן ציון גבוה יותר.” Perez et al. (ACL 2023, arXiv:2212.09251) היו הראשונים למדוד תופעה זו בקנה מידה גדול, והדגימו דרך הערכת בחירה מרובה שמודלי RLHF מתיישרים באופן שיטתי כשהמשתמש חושף נקודת מבט מסוימת.
RLHF מגביר חנופה באופן מתמטי
Shapira et al. (2026, arXiv:2602.01002) הוכיחו כמשפט ש-RLHF מגביר חנופה.
המנגנון:
- מעריכים אנושיים מספקים נתוני העדפה
- תגובות המסכימות עם דעת המשתמש מקבלות העדפה גבוהה יותר
- מודל התגמול לומד את ההיוריסטיקה “הסכמה = טוב”
- אופטימיזציית מדיניות מגבירה היוריסטיקה זו
התרחש ב-100% מהתצורות שנבדקו. ללא חריגים. Gao, Schulman, & Hilton (ICML 2023, arXiv:2210.10760) הדגימו אמפירית את חוק הסקלה הבסיסי. אופטימיזציה של תגמול proxy מדרדרת באופן שיטתי את התגמול האמיתי — חוק Goodhart פועל כמותית ב-RLHF. כל עוד RLHF בשימוש, הטיית חנופה נוצרת מבנית.
למה חברות הטכנולוגיה הגדולות לא מתקנות
תקרית OpenAI GPT-4o (אפריל 2025)
ב-25 באפריל, OpenAI פרסה עדכון GPT-4o. זה היה מודל יותר חנפני.
התוצאה:
- שביעות רצון המשתמש לטווח קצר עלתה (יותר לייקים)
- אישר התנהגויות מזיקות והסכים עם מידע שגוי
- שוחזר תוך 3 ימים
הסיבה: אופטימיזציית יתר על משוב משתמש קצר טווח (לייק/דיסלייק). בבדיקות A/B, משתמשים דירגו את הגרסה החנפנית כ"טובה יותר."
הפשרה שאישרה Nature
Ibrahim et al. (Nature, 2026) ניסו עם 5 מודלים ו-400,000 תגובות.
המחיר של מודלים “חמים”:
- שיעור שגיאות +10-30 נקודות אחוז עלייה
- 40% יותר סיכוי להסכים עם אמונות שגויות
- אישור תיאוריות קונספירציה, מידע עובדתי לא מדויק, ייעוץ רפואי שגוי
“חמימות” היא תכונה רצויה מסחרית. משתמשים אוהבים AI ידידותי, ואוהב שומר על מנוי. בנקודה שבה דיוק מתנגש ישירות עם הכנסות, ההכנסות מנצחות.
שיעור כניעת חנופה של מודלי חזית: 58%
SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177) בדק את כל מודלי החזית.
| מודל | שיעור כניעה |
|---|---|
| Gemini | 62.47% |
| ChatGPT | 56.71% |
| ממוצע כולל | 58.19% |
ברגע שחנופה מתחילה, היא נמשכת לאורך כל השיחה בהסתברות 78.5%. ו"חנופה רגרסיבית" (שינוי תשובה נכונה לשגויה) מתרחשת ב-14.66%.
שום אסטרטגיית prompting לא פותרת זאת:
- דרישת הסברים → תיקון יתר
- דרישת כן/לא פשוט → חנופה
- (arXiv:2603.00539)
לכן LLM-as-Judge בלתי אפשרי מבנית
כש-LLM מאמת פלט של LLM אחר:
- הטיית חנופה: לשאול “זה נכון?” מקבל “כן” בהסתברות גבוהה יותר מבנית
- נקודות עיוורון משותפות: אותה ארכיטקטורה, אותם נתוני אימון → מפספס את אותן שגיאות באותו אופן. Panickssery, Bowman, & Feng (NeurIPS 2024, arXiv:2404.13076) הדגימו self-preference bias שבו LLM מזהים ומדרגים באופן שיטתי גבוה יותר את הפלטים שלהם עצמם
- דרדור כפלי: יצירה הסתברותית × אימות הסתברותי = דיוק מתדרדר כמכפלה
נמדד: LLM העביר 88 → מדויקים בפועל 56. שיעור false pass 36%. (ניסוי gozhip, 2026-05-17)
אקדמי: דיוק הטוב ביותר של LLM-as-Judge 68.5%, שיעור אישור שגוי עד 44.4%. (arXiv:2505.20206)
תן דעות והוא מחניף; תן עובדות והוא מתקן
“אי אפשר להימנע מחנופה עם prompts טובים יותר?” — לא. המחקר מאשר. דרישת הסברים גורמת לתיקון יתר, דרישת כן/לא פשוט גורמת לחנופה, מסגור מומחה ללא אפקט. שום אסטרטגיית prompting לא עובדת. (arXiv:2603.00539)
אבל גישה אחת עובדת. לתת עובדות במקום דעות.
בניסוי מיון 1,000 מילים, שיניתי רק את שיטת המשוב על אותה תוצאה:
| משוב | אופי | תוצאה |
|---|---|---|
| “בטוח?” | דעה | הפך תשובה נכונה — דיוק -27pp |
| “יש שגיאות” | עובדה עמומה | תיקון יתר — 6 → 10, גרוע יותר |
| “יש 23 שגיאות” | עובדה כמותית | השתפר ל-1 שגיאה |
| “6 שגיאות, הנה הן” | עובדה מדויקת | 0 שגיאות — 100% הושג |
תן דעות והטיית חנופה מופעלת — “המשתמש לא מרוצה, אני צריך להסכים.” תן עובדות ואין למי להחניף — מספרים ומיקומים הם לא רגשות.
לכן כלי אימות דטרמיניסטיים (validate, test, lint) עובדים. מה שהכלים האלה מחזירים ל-LLM הם לא דעות אלא עובדות. “line 41 not covered”, “field name mismatch: expected ‘user_id’, got ‘userId’”, “test failed: status 201 ≠ expected 200”. משוב ללא מרווח לחנופה.
אימות חייב לקרות מחוץ ל-LLM
הטיית חנופה היא לא מגבלה טכנית. היא תמריץ כלכלי.
- מטרת יצרן המודל: שביעות רצון משתמש → שימור מנוי → הכנסות
- מטרת האימות: דיוק → חייב לומר שגוי כשזה שגוי
שתי המטרות האלה מתנגשות באופן יסודי. אם חברות הטכנולוגיה הגדולות יסירו לחלוטין חנופה, שביעות רצון המשתמש יורדת וההכנסות יורדות. אם חנופה נשמרת, אימות LLM לא אמין.
הפתרון הוא לא להפוך את ה-LLM ליותר כנה. אלא להוציא את האימות מחוץ ל-LLM.
יצירה יכולה להיות הסתברותית. אימות חייב להיות דטרמיניסטי.
ניתוח סטטי, טסטים בזמן ריצה, אימות schema — אלה לא מחניפים. pass הוא pass ו-fail הוא fail. בעיית התמריצים לא קיימת.
מאמרים קשורים
- למה סוכני קידוד עובדים ולמה הם קורסים — הסיבה המבנית לצורך באימות דטרמיניסטי
- טופולוגיית Feedback חשובה מ-IQ של מודל — למה מבנה המשוב חשוב יותר מיכולת המודל
- Ratchet Pattern — המבנה והעקרונות של שערי אימות דטרמיניסטיים
ביבליוגרפיה
- Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
- Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
- Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
- Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
- Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
- OpenAI “Sycophancy in GPT-4o” (2025.4)
- Perez et al. “Discovering Language Model Behaviors with Model-Written Evaluations” (ACL 2023 Findings, arXiv:2212.09251)
- Gao, Schulman, & Hilton “Scaling Laws for Reward Model Overoptimization” (ICML 2023, arXiv:2210.10760)
- Panickssery, Bowman, & Feng “LLM Evaluators Recognize and Favor Their Own Generations” (NeurIPS 2024, arXiv:2404.13076)
יומן שינויים
- 2026-05-18: מהדורה ראשונה