שיעור 7

סיכום שיעור 6

שיעור 6 עסק ב-Ratchet Pattern. עבר = נעול, המכונה מכריזה “סיום”. סוכן שעצר ב-40 מוביל עד 527.

היום: למה ה-ratchet עובד. ואיך לעצב את היחס בין prompt ל-verifier.

IFEval (Instruction Following Evaluation) — מדד ל"האם ה-AI עושה מה שאומרים לו". ציון גבוה = ממלא הוראות טוב = מחניף טוב.


טיפים מעשיים

שואלים AI “הקוד בסדר?” → הוא מחניף. “נראה טוב” — גם אם יש באגים.

לסוכן: “הרץ hurl –test tests/ ותראה לי את התוצאה”

ככה מקבלים עובדות. אם טסטים נכשלים — הקוד שהוא אמר “בסדר” בעצם לא בסדר.

קריטריון סיווג אחד: “האם מכונה יכולה לשפוט את הפלט?”

מכונה יכולה → verifier. מכונה לא יכולה → prompt.


למה צריך לפקד ככה

דעה → חנופה. עובדה → תיקון.

פידבקסוגתוצאה
“בטוח?”דעהביטל תשובה נכונה — -27%p
“יש שגיאות”עובדה מעורפלתתיקון יתר — הוחמר
“6 שגיאות, הנה הן”עובדה מדויקת + מיקום0 שגיאות — 100%

הטיית חנופה היא נאמנות בכיוון הלא נכון. שנו כיוון — במקום דעה עובדות, במקום שבחים תוצאות אימות — והנאמנות הזו הופכת למנוע דיוק.

ככה ה-ratchet עובד

LLM מייצר קוד → Verifier בודק דטרמיניסטית → שגיאה? "שורה 41: ציפיתי ל-user_id, קיבלתי userId" (עובדה) → LLM: "כן, אתקן" (חנופה = קבלה) → Verifier בודק שוב → עבר? → ratchet נעול. הלאה.

הטיית חנופה הופכת לכוח הסגירה של הלולאה.

מודל 4.5B גם מתכנס

מודלתוצאה
Grok 4.3ניסיון ראשון 0 שגיאות
Gemini 2.5 Flashפידבק 1 → 0 שגיאות
Gemma4 4.5B (מקומי)פידבק 1 → 0 שגיאות

צוואר הבקבוק הוא לא אינטליגנציה — הוא הקשר.

יחס הזהב: Prompt לעומת Verifier

Prompt = כיוון (קוד 80 נקודות). Verifier = דיוק (מעלה ל-100).

Verifier שובר את ההידרדרות הכפלית

בלי verifier: 97.7%^100 = 4.8%
עם verifier בכל שלב: כל שלב → שגיאה נתפסת → מתוקנת → 100%

קורס Reins Engineering המלא

שיעורכותרת
שיעור 1איך לפקד על AI
שיעור 2למה אי אפשר לסמוך על AI
שיעור 3אפליקציות שלא נשברות
שיעור 4החלטות מחוץ לקוד
שיעור 5AI עם רסן
שיעור 6עבר = נעול
שיעור 7איך להפוך חנופה
שיעור 8המפעל של הסוכן
שיעור 9אוטומציה מעבר לקוד
שיעור 10חוק הנתונים

מקורות

  1. הטיית חנופה — ממוצע 58.19% כניעה. 100% בכל הקונפיגורציות. 78.5% מתמשכת.
  2. OpenAI GPT-4o עדכון חנופה אפריל 2025 — הוחזר אחרי 3 ימים.
  3. ניסוי מיון 1,000 מילים — עובדה מדויקת עם מיקום = 0 שגיאות.
  4. LLM-as-Judge — דיוק מרבי 68.5%, שיעור אישור כוזב עד 44.4%.