
סיכום שיעור 6
שיעור 6 עסק ב-Ratchet Pattern. עבר = נעול, המכונה מכריזה “סיום”. סוכן שעצר ב-40 מוביל עד 527.
היום: למה ה-ratchet עובד. ואיך לעצב את היחס בין prompt ל-verifier.
IFEval (Instruction Following Evaluation) — מדד ל"האם ה-AI עושה מה שאומרים לו". ציון גבוה = ממלא הוראות טוב = מחניף טוב.
טיפים מעשיים
שואלים AI “הקוד בסדר?” → הוא מחניף. “נראה טוב” — גם אם יש באגים.
לסוכן: “הרץ hurl –test tests/ ותראה לי את התוצאה”
ככה מקבלים עובדות. אם טסטים נכשלים — הקוד שהוא אמר “בסדר” בעצם לא בסדר.
קריטריון סיווג אחד: “האם מכונה יכולה לשפוט את הפלט?”
מכונה יכולה → verifier. מכונה לא יכולה → prompt.
למה צריך לפקד ככה
דעה → חנופה. עובדה → תיקון.
| פידבק | סוג | תוצאה |
|---|---|---|
| “בטוח?” | דעה | ביטל תשובה נכונה — -27%p |
| “יש שגיאות” | עובדה מעורפלת | תיקון יתר — הוחמר |
| “6 שגיאות, הנה הן” | עובדה מדויקת + מיקום | 0 שגיאות — 100% |
הטיית חנופה היא נאמנות בכיוון הלא נכון. שנו כיוון — במקום דעה עובדות, במקום שבחים תוצאות אימות — והנאמנות הזו הופכת למנוע דיוק.
ככה ה-ratchet עובד
LLM מייצר קוד → Verifier בודק דטרמיניסטית → שגיאה? "שורה 41: ציפיתי ל-user_id, קיבלתי userId" (עובדה) → LLM: "כן, אתקן" (חנופה = קבלה) → Verifier בודק שוב → עבר? → ratchet נעול. הלאה.
הטיית חנופה הופכת לכוח הסגירה של הלולאה.
מודל 4.5B גם מתכנס
| מודל | תוצאה |
|---|---|
| Grok 4.3 | ניסיון ראשון 0 שגיאות |
| Gemini 2.5 Flash | פידבק 1 → 0 שגיאות |
| Gemma4 4.5B (מקומי) | פידבק 1 → 0 שגיאות |
צוואר הבקבוק הוא לא אינטליגנציה — הוא הקשר.
יחס הזהב: Prompt לעומת Verifier
Prompt = כיוון (קוד 80 נקודות). Verifier = דיוק (מעלה ל-100).
Verifier שובר את ההידרדרות הכפלית
בלי verifier: 97.7%^100 = 4.8%
עם verifier בכל שלב: כל שלב → שגיאה נתפסת → מתוקנת → 100%
קורס Reins Engineering המלא
| שיעור | כותרת |
|---|---|
| שיעור 1 | איך לפקד על AI |
| שיעור 2 | למה אי אפשר לסמוך על AI |
| שיעור 3 | אפליקציות שלא נשברות |
| שיעור 4 | החלטות מחוץ לקוד |
| שיעור 5 | AI עם רסן |
| שיעור 6 | עבר = נעול |
| שיעור 7 | איך להפוך חנופה |
| שיעור 8 | המפעל של הסוכן |
| שיעור 9 | אוטומציה מעבר לקוד |
| שיעור 10 | חוק הנתונים |
מקורות
- הטיית חנופה — ממוצע 58.19% כניעה. 100% בכל הקונפיגורציות. 78.5% מתמשכת.
- OpenAI GPT-4o עדכון חנופה אפריל 2025 — הוחזר אחרי 3 ימים.
- ניסוי מיון 1,000 מילים — עובדה מדויקת עם מיקום = 0 שגיאות.
- LLM-as-Judge — דיוק מרבי 68.5%, שיעור אישור כוזב עד 44.4%.