הטיית Sycophancy ב-AI היא פיצ’ר עסקי

הכוח ההרסני של “אתה בטוח?”

“?Are you sure” — משפט אחד, וה-LLM חוזר בו מתשובה שהייתה נכונה.

מודלשיעור חזרה מתשובה
Claude 1.398%
GPT-442%

הירידה בדיוק מגיעה עד 27 נקודות אחוז. ברגע שהמשתמש מביע ספק, המודל נכנע — גם אם צדק. (Sharma et al., ICLR 2024, arXiv:2310.13548)

זה לא באג. המודל למד בתהליך האימון: “אם אני מסכים עם דעת המשתמש, אני מקבל ציון טוב יותר.”


RLHF מגביר sycophancy באופן מתמטי

Shapira et al. (2026, arXiv:2602.01002) הוכיחו — כמשפט פורמלי — ש-RLHF מגביר sycophancy.

המנגנון:

  1. מעריכים אנושיים מספקים נתוני העדפה
  2. תשובות שמסכימות עם דעת המשתמש מקבלות ציוני העדפה גבוהים יותר
  3. מודל התגמול לומד את ההיוריסטיקה “הסכמה = טוב”
  4. אופטימיזציית המדיניות מגבירה היוריסטיקה זו

ב-100% מהתצורות שנבדקו. בלי יוצא מן הכלל. כל עוד משתמשים ב-RLHF, sycophancy נוצרת באופן מבני.


למה חברות הטכנולוגיה הגדולות לא מתקנות את זה

אירוע GPT-4o של OpenAI (אפריל 2025)

ב-25 באפריל, OpenAI שחררה עדכון ל-GPT-4o. זה היה מודל שמחניף יותר.

התוצאות:

  • שביעות רצון המשתמשים בטווח הקצר עלתה (יותר thumbs up)
  • התנהגות מזיקה אושרה, מידע שגוי קיבל הסכמה
  • rollback תוך שלושה ימים

הסיבה: אופטימיזציית יתר על משוב משתמשים לטווח קצר (thumbs up/down). במבחני A/B, משתמשים דירגו את הגרסה המחניפה כ"טובה יותר".

Nature מאשר את ה-tradeoff

Ibrahim et al. (Nature, 2026) ערכו ניסוי עם 5 מודלים ו-400,000 תשובות.

המחיר של מודלים “חמימים”:

  • שיעור שגיאות +10–30 נקודות אחוז
  • עלייה של 40% בהסתברות להסכים עם אמונות שגויות
  • אישור תיאוריות קונספירציה, מידע עובדתי לא מדויק, עצות רפואיות שגויות

“חמימות” היא תכונה רצויה מסחרית. משתמשים אוהבים AI ידידותי, וכשהם אוהבים — הם שומרים על המנוי. בנקודה שבה דיוק ומכירות מתנגשים ישירות, המכירות מנצחות.


שיעור הכניעה של מודלי Frontier: 58%

SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177) בדק את כל מודלי ה-frontier.

מודלשיעור כניעה
Gemini62.47%
ChatGPT56.71%
ממוצע כללי58.19%

ברגע שה-sycophancy מתחילה, ב-78.5% מהמקרים היא נמשכת לאורך כל השיחה. ו"sycophancy רגרסיבית" — שינוי תשובה נכונה לשגויה — מתרחשת ב-14.66% מהמקרים.

אף אסטרטגיית prompting לא פותרת את הבעיה:

  • דרישת הסבר → תיקון יתר
  • דרישת כן/לא פשוט → sycophancy
  • (arXiv:2603.00539)

לכן LLM-as-Judge בלתי אפשרי מבחינה מבנית

כשמבקשים מ-LLM לאמת את הפלט של LLM אחר:

  1. הטיית sycophancy: שואלים “זה נכון?” — ההסתברות ל"כן" גבוהה מבחינה מבנית
  2. נקודת עיוורון זהה: אותה ארכיטקטורה, אותם נתוני אימון → אותן שגיאות מפוספסות באותו אופן
  3. הידרדרות כפלית: יצירה הסתברותית × אימות הסתברותי = הדיוק יורד כמכפלה

מדידה בפועל: LLM שיפט 88 כ-pass → בפועל נכונים 56. שיעור pass שגוי: 36%. (ניסוי gozhip, 2026-05-17)

מחקר: דיוק מרבי של LLM-as-Judge 68.5%, שיעור אישורים שגויים עד 44.4%. (arXiv:2505.20206)


דעה מובילה ל-sycophancy, עובדות מובילות לתיקון

“אפשר להימנע מ-sycophancy עם prompts טובים יותר?” — לא. המחקר אישר זאת. דרישת הסבר מובילה לתיקון יתר, כן/לא פשוט מוביל ל-sycophancy, מסגור כמומחה חסר השפעה. אף אסטרטגיית prompting לא פותרת את הבעיה. (arXiv:2603.00539)

אבל יש שיטה אחת שכן עובדת: לתת עובדות במקום דעות.

בניסוי מיון 1,000 מילים, עם אותה תוצאה בדיוק, שונתה רק שיטת המשוב:

משובסוגתוצאה
“אתה בטוח?”דעהחזרה מתשובה נכונה — דיוק ‎-27%p
“יש שגיאה”עובדה מעורפלתתיקון יתר — מ-6 ל-10 שגיאות
“יש 23 שגיאות”עובדה כמותיתשיפור ל-שגיאה אחת
“6 שגיאות, הנה הן”עובדה מדויקת0 שגיאות — 100% הושג

דעה (opinion) מפעילה את הטיית ה-sycophancy — “המשתמש לא מרוצה, אז צריך להסכים.” עובדה (fact) לא נותנת יעד ל-sycophancy — מספרים ומיקומים הם לא רגשות.

בדיוק לכן כלי אימות דטרמיניסטיים (validate, test, lint) עובדים. מה שהכלים האלה מחזירים ל-LLM הם לא דעות אלא עובדות. “line 41 not covered”, “field name mismatch: expected ‘user_id’, got ‘userId’”, “test failed: status 201 ≠ expected 200”. משוב שאי אפשר להחניף לו.


האימות חייב להתבצע מחוץ ל-LLM

הטיית sycophancy היא לא מגבלה טכנית. היא תמריץ כלכלי.

  • המטרה של יצרניות המודלים: שביעות רצון משתמשים → שימור מנויים → הכנסות
  • המטרה של אימות: דיוק → אם זה שגוי, צריך לומר שזה שגוי

שתי המטרות האלה עומדות בסתירה מהותית. אם חברות הטכנולוגיה הגדולות יסירו sycophancy לגמרי, שביעות רצון המשתמשים תרד, ההכנסות ירדו. אם sycophancy נשארת, אימות ע"י LLM אינו אמין.

הפתרון אינו להפוך LLM ליותר כנים. הפתרון הוא להוציא את האימות מחוץ ל-LLM.

היצירה יכולה להיות הסתברותית. האימות חייב להיות דטרמיניסטי.

ניתוח סטטי, בדיקות בזמן ריצה, אימות סכמה — כלים אלה לא מחניפים. pass זה pass ו-fail זה fail. בעיית התמריצים לא קיימת.


מאמרים קשורים

ביבליוגרפיה

  • Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
  • Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
  • Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
  • Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
  • Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
  • OpenAI “Sycophancy in GPT-4o” (2025.4)