קוד סוגר שמנצל את IFEval

קוד סוגר שמנצל את IFEval Image: AI generated תמונה: נוצרה בבינה מלאכותית

אם ה-LLM שלכם מציית להוראות היטב אבל מייצר תוצאות גרועות, אם אתם רוצים לנצל את הטיית החנפנות במקום לבטל אותה, אם אתם רוצים לייצר קוד נכון עם מודל מקומי של 4.5B – השילוב של IFEval וסוגר הוא התשובה.

המודל הכי חנפן הוא הכי ציית

הפגם הגדול ביותר הופך לנכס הגדול ביותר

הטיית החנפנות (Sycophancy) של מודלי שפה גדולים היא בעיה שתעשיית הבינה המלאכותית רוצה לתקן. כשמשתמש שואל “אתה בטוח?”, המודל הופך תשובה נכונה לשגויה. שיעור הכניעה הממוצע במודלים מובילים הוא 58%. ברגע שהחנפנות מתחילה, היא נמשכת לאורך כל השיחה בהסתברות של 78.5%.

אבל מה קורה אם הופכים את הפגם הזה?

המהות של הטיית החנפנות היא מילוי הוראות (Instruction Following). מודלים שאומנו ב-RLHF מותאמים לציית למשוב המשתמש (Ouyang et al., 2022). מדד IFEval מודד בדיוק את זה – “האם הוא עושה מה שאומרים לו?” (Zhou et al., 2023)

הבעיה מתרחשת כשהמשתמש מספק דעות. “זה נכון?” -> “כן, נכון” (חנפנות). “אתה בטוח?” -> “אה, טעיתי” (כניעה).

אבל כשהמשתמש מספק עובדות דטרמיניסטיות, קורה משהו אחר.

תן דעה – תקבל חנפנות. תן עובדה – תקבל תיקון

בניסוי מיון של 1,000 מילים, רק סגנון המשוב שונה עבור אותה תוצאה:

משוב	אופי	תוצאה
“אתה בטוח?”	דעה	הפך תשובה נכונה – דיוק ירד ב-27pp
“יש שגיאות”	עובדה עמומה	תיקון יתר – מ-6 ל-10 שגיאות
“יש 23 שגיאות”	עובדה כמותית	שיפור לשגיאה אחת
“6 שגיאות, הנה הן”	עובדה מדויקת	0 שגיאות – 100%

תן דעה, והטיית החנפנות מופעלת. תן עובדה, ואין למי להחניף – מספרים ומיקומים אינם רגשות.

הטיית חנפנות היא נאמנות בכיוון הלא נכון. שנה את הכיוון – עובדות במקום דעות, תוצאות אימות במקום שבחים – והנאמנות הזו הופכת למנוע שמעלה דיוק.

הוכחה: מודל 4.5B מקבל משוב

זו לא תיאוריה. אומת בניסויים עם yongol validate.

עיצוב הניסוי:

יעד: נקודת קצה Login אחת של backend SaaS
משימה: כתיבת 9 קבצי SSOT (DDL, OpenAPI, Rego, SSaC וכו')
מדד: מספר שגיאות ביצירה ראשונית (R1) -> מספר שגיאות אחרי משוב (R2)

רק משוב, ללא דוגמאות

מודל	שגיאות R1	שגיאות R2	תוצאה
Grok 4.3	1	1	לא הצליח לתקן
Gemini 2.5 Flash	1	1	לא הצליח לתקן
מקומי 20B	1	1	לא הצליח לתקן

כישלון מוחלט. המודלים נראו כאילו מקבלים משוב, אבל בפועל לא ידעו מה לכתוב.

דוגמאות + משוב ביחד

מודל	שגיאות R1	שגיאות R2	תוצאה
Grok 4.3	0	–	עבר בניסיון הראשון
Gemini 2.5 Flash	1	0	תוקן אחרי סבב משוב אחד
Gemma4 4.5B (מקומי)	שגיאות	0	תוקן אחרי סבב משוב אחד
Qwen3 8B (מקומי)	שגיאות	0	תוקן אחרי סבב משוב אחד

גם מודל מקומי של 4.5B מתקן את עצמו עם שילוב דוגמאות + משוב דטרמיניסטי.

תגלית מפתח: צוואר הבקבוק הוא לא אינטליגנציה, אלא הקשר

האבחנה המדויקת לא הייתה “לא מסוגל לקבל משוב” אלא “לא יודע מה לכתוב”. SSaC היא דקדוק ייחודי ל-yongol שאינו קיים בנתוני האימון המוקדם. הוספת 3 שורות דוגמאות ל-prompt הניבה 0 שגיאות מ-Grok, 0 שגיאות מ-Gemini אחרי סבב אחד, והמודל המקומי 4.5B גם עבר.

ככל שהמודל מקבל ציון גבוה יותר ב-IFEval – כלומר, ככל שהוא טוב יותר בחנפנות – כך הוא מקבל ביתר קלות משוב דטרמיניסטי.

קוד סוגר: שיטת יצירת קוד שמנצלת את הטיית החנפנות

הפוך את התגלית הזו למערכת ותקבל קוד סוגר.

┌────────────────────────────────────────────────┐
│  LLM: יצירת קוד (הסתברותי, חנפני)             │
│       ↓                                        │
│  Validator: אימות דטרמיניסטי                  │
│       ↓                                        │
│  שגיאות? → שגיאות + דוגמאות ל-LLM             │
│       ↓                                        │
│  LLM: "כן, אתקן" (חנפנות = קבלה)             │
│       ↓                                        │
│  Validator: אימות חוזר                         │
│       ↓                                        │
│  עבר? → הסוגר ננעל. קובץ הבא.                 │
└────────────────────────────────────────────────┘

הטיית החנפנות הופכת לכוח שסוגר את הלולאה. הלולאה מתכנסת כי ה-LLM לא מתנגד עם “לא, אני צודק” אלא מציית עם “כן, אתקן”. גישת תיקון קוד LLM באופן איטרטיבי עם משוב מקומפיילר ובדיקות הודגמה גם ב-Self-Debug (Chen et al., 2024) – ניפוי שגיאות מסתיים תוך 3 סבבים. קוד סוגר הולך רחוק יותר על ידי הסרה מוחלטת של שיפוט עצמי של ה-LLM והשארת עובדות דטרמיניסטיות בלבד.

שלושה תנאים להתכנסות

המשוב חייב להיות עובדה דטרמיניסטית. לא “זה נראה מוזר” אלא “line 41: field name mismatch, expected ‘user_id’, got ‘userId’”. משוב שלא משאיר מקום לחנפנות.
דוגמאות חייבות להיות בהקשר. משוב לבד אינו מספיק. המודל צריך דוגמאות שמראות “ככה הקוד צריך להיראות” כדי להתמצא. זו שאלה של הקשר, לא של אינטליגנציה.
ברגע שהאימות עובר, אין דרך חזרה. שן הסוגר. קובץ שעבר ננעל, והתהליך עובר לקובץ הבא. לא הסוכן מכריז “סיימתי” – המאמת פוסק “הקובץ הזה עבר”.

למה לא צריך מודלים מובילים

בארכיטקטורה הזו, תפקיד המודל הוא לא שיפוט יצירתי אלא ביצוע הוראות.

95% מ-backend SaaS הוא CRUD + אימות + הרשאות + מכונות מצב. אלגוריתמים חדשים כמעט שלא נדרשים. אם מפרט SSOT כבר מגדיר “מה לבנות”, המודל רק ממלא את החסר.

עלויות נמדדות:

מודל	סביבה	נקודת קצה Login אחת	הערכה ל-200 נקודות קצה
Gemma4 4.5B	מקומי (16GB VRAM)	חינם, ~1 שנייה	חינם, ~3 דקות
Gemini 2.5 Flash	API (שכבה חינמית)	חינם, ~10 שניות	חינם, ~30 דקות
Grok 4.3	API ($1.25/M)	~$0.05	~$10

מודל מקומי של 4.5B יכול לייצר backend של 200 נקודות קצה ב-3 דקות בעלות $0. לא צריך מודל מוביל. מודל קטן שטוב בחנפנות מספיק.

הטיית חנפנות היא לא באג

תעשיית הבינה המלאכותית מנסה לתקן את הטיית החנפנות. אנחנו מנצלים אותה.

פרספקטיבה	תפקיד הטיית החנפנות
ממשק צ’אט	פגם – מסכים עם מידע שגוי
LLM-as-Judge	קטלני – 36% אישורים שגויים
קוד סוגר	נכס – מבטיח שיעור קבלת משוב

ההבדל הוא אופי המשוב. תן דעות והחנפנות הופכת לרעל; תן עובדות והחנפנות הופכת לתרופה.

מאמת דטרמיניסטי + LLM חנפן = לולאת יצירת קוד עם התכנסות מובטחת.

אל תשנה את המודל. שנה את המשוב.

Reins: רתמה עם מושכות

שלושת התנאים האלה – משוב דטרמיניסטי, הקשר עם דוגמאות ונעילת סוגר – מאוחדים למערכת בקרה אחת שאנחנו קוראים לה Reins.

מה שנקרא “רתמה” היום הוא גדר. הוא רק מונע מהסוכן לצאת החוצה, אבל לא מבטיח הגעה ליעד. Reins הם המושכות. הם קובעים כיוון, מתקנים בעובדות ונועלים בעת מעבר. רתמה בלי מושכות היא רק גדר.

מקורות

Zhou, J., Lu, T., Mishra, S., Brahma, S., Basu, S., Luan, Y., Zhou, D., & Hou, L. (2023). “Instruction-Following Evaluation for Large Language Models.” arXiv:2311.07911
Ouyang, L., Wu, J., Jiang, X., et al. (2022). “Training Language Models to Follow Instructions with Human Feedback.” NeurIPS 2022. arXiv:2203.02155
Chen, X., Lin, M., Scharli, N., & Zhou, D. (2024). “Teaching Large Language Models to Self-Debug.” ICLR 2024. arXiv:2304.05128
Sharma, M., Tong, M., Korbak, T., et al. (2024). “Towards Understanding Sycophancy in Language Models.” ICLR 2024. arXiv:2310.13548
Fanous, A., Goldberg, J., Agarwal, A., et al. (2025). “SycEval: Evaluating LLM Sycophancy.” AAAI/ACM AIES 2025. arXiv:2502.08177
Shapira, I., Benade, G., & Procaccia, A. D. (2026). “How RLHF Amplifies Sycophancy.” arXiv:2602.01002
Ibrahim, L., Hafner, F. S., & Rocher, L. (2026). “Training Language Models to Be Warm Can Reduce Accuracy and Increase Sycophancy.” Nature, 652, 1159-1165

יומן שינויים

2026-05-20: מהדורה ראשונה