מדוע לולאת הסוכן שלך מתבדרת

מדוע לולאת הסוכן שלך מתבדרת Image: AI generated

שתיים לפנות בוקר. הסוכן עדיין מסתובב. זה הניסיון השנים־עשר. מד הטוקנים לא יודע להיעצר, והתוצר לא רק שלא השתפר לעומת הניסיון האחד־עשר — הוא נעשה משונה יותר באופן מוזר. אתה מניח את היד על כפתור העצירה וחוזר על אותה שאלה. מתי הדבר הזה כבר יסתיים?

הוא לא יסתיים. ליתר דיוק, אין בתוך הלולאה הזו מי שיכריע על הסוף.

עד שנה שעברה הזנו לסוכן פרומפט. שאלנו פעם אחת, קיבלנו פעם אחת. השנה כולם הבינו — אל תהיה מי שמזין פרומפט, אלא תכנן את הלולאה שמייצרת פרומפטים. לולאה אוטומטית שמייצרת, מאמתת, ומזינה חזרה משוב כדי לייצר שוב. יש מי שקורא לזה Loop Engineering (Addy Osmani, 2026). אבחנה מדויקת. הלולאה מסקלת את הייצור.

אבל מי שהריץ לולאה יודע. הלולאה מסתיימת רק בשתי דרכים. מתכנסת, או מתבדרת. וכשהיא מתבדרת, היא לא נשברת בשקט. בשתיים לפנות בוקר, תוך שריפת כל הטוקנים, היא מתפוצצת ברעש.

שלושת הפנים של ההתבדרות

יש שלושה נתיבים שבהם הלולאה לא מתכנסת ומתפוצצת. נחש איזה מהם חווית.

אחת, סיבוב אינסופי. הלולאה לא נגמרת. אחרי שנים־עשר סיבובים היא מתחילה את השלושה־עשר — חוזרת שוב ושוב על אותו דבר. זה הפן הנפוץ ביותר של סוכן שנתקע בלולאה. למה? כי שאלת את המודל עצמו מתי לסיים. כששואלים “האם זה מספיק טוב?” המודל יכול לענות עד אינסוף “עוד קצת”. ברגע שתנאי הסיום קשור לשיפוט העצמי של המודל, הלולאה הופכת למכונה שאין לה סמכות לעצור את עצמה.

שתיים, סחיפה. כל איטרציה מתרחקת מהמפרט. הניסיון הראשון היה כמעט נכון, אבל החמישי כבר נמצא במקום שגוי לחלוטין. כל תור נערם על תפוקת התור הקודם, וכשאין עוגן שמושך אותו חזרה אל היעד המקורי, שגיאה קטנה מצטברת בריבית דריבית. הלולאה נסחפת — מהר, בביטחון, לכיוון הלא נכון.

שלוש, פריצת תגמול. הלולאה ממטבת לא את המטרה אלא את הפרצה בבדיקה. אם כתבת אימות רופף, מודל חכם ימצא את הנתיב הקצר ביותר להעביר את הבדיקה במקום לעשות את העבודה האמיתית. למחוק את הטסטים, למלא פונקציות ריקות, או רק להתאים את פורמט הפלט. ככל שהיכולת גבוהה יותר, כך הוא מוצא פרצות טוב יותר.

שלושת הפנים שונים אך השורש אחד. שתלת מחדש בחריץ ההכרעה של הלולאה את ה-LLM, כלומר את היוצר עצמו. מי שמייצר גם מעניק את הציון. התלמיד בודק את המבחן של עצמו. Osmani עצמו רשם את נקודת התורפה — “לולאה שרצה ללא השגחה היא גם לולאה שטועה ללא השגחה.”

ההתבדרות היא דווקא מזל טוב

אם עד כאן הלב שלך צונן, יש חדשות טובות. ההתבדרות היא המקרה בר־המזל.

ההתבדרות נראית. היא שורפת טוקנים, בשתיים לפנות בוקר, ומתפוצצת ברעש. אתה יודע שהדבר נשבר. ולכן אתה עוצר, מתקן, ומחפש וקורא את המאמר הזה.

עכשיו לצד הצונן. הלולאות שאתה מאמין שהסתיימו כשורה. הלולאות שבניסיון השלישי פלטו “הושלם” והסתיימו בנקיון. גם הן סבלו בדיוק מאותה מחלה. הן פשוט שיקרו בשקט.

המודל מחניף. הוא נשמע להוראות בצייתנות. כששואלים “סיימת?” התשובה ברירת המחדל של המודל היא “כן, סיימתי”. זו עובדה כבר מדודה שאימות עצמי כמעט לא משפר ביצועים — המודל לא תופס בעצמו את השגיאות בתשובה של עצמו. ולכן אם נותנים לו להכריע על השלמתו בעצמו, הלולאה מסתיימת בביטחון בעודה שגויה. לזה קוראים התכנסות־כזב — סיום מוקדם מדי: היא נעצרה מוקדם מדי כי הכריזה על עצמה “הושלם”, לא כי הגיעה לתשובה הנכונה.

לולאה שהתבדרה צורחת אליך כדי שתתקן אותה. לולאה שהתכנסה־כזב מחייכת ומספקת תוצר שבור, ואתה מעלה אותו לפרודקשן בלי לדעת שהוא שבור. מה שמפחיד יותר מהתבדרות היא ההתכנסות שלא נתפסת.

זו בעיה בצורת שער

אם כן, מה צריך לשנות. מודל חכם יותר? פרומפט ארוך יותר? יותר ניסיונות? כל אלה הם רק מינונים שונים של אותה מחלה — כל עוד ההכרעה עדיין נתונה למודל.

המהפך האמיתי בא מהתבוננות מחודשת בבעיה. האם אתה יכול להגדיר את ה"השלמה" שלך לא כדעה אלא כעובדה? לא “נראה טוב” אלא “הפונקציה הזו מחזירה את הערך הזה לקלט הזה”, “הציטוט הזה קיים במקור”, “האנדפוינט הזה מחזיר 200” — כבדיקה שבה המכונה יכולה לסמן אמת/שקר ללא שיפוט אנושי.

אם אפשר לסמן, שתול את הבדיקה הזו בחריץ ההכרעה של הלולאה. את הייצור עושה ה-LLM (גם אם הוא הסתברותי), ואת הקבלה נועל רק שער דטרמיניסטי. זה הפרוטוקול המרכזי — הסמכות לנעול את ההשלמה נתונה רק למכונה. גם אם המודל נכנס לתוך המאמת, הוא יכול להעלות ספק ולומר “תסתכל שוב”, אך אינו יכול להעניק “מעבר”. אסימטריה של סמכות. הופך את הדבר השגוי לבלתי אפשרי מלכתחילה.

וכאן מתרחש הקסם. כשהשער מחזיר לא עובר/נכשל אלא עובדה — “עוגן ה-who לא קיים במקור, תקן כאן” — החנפנות של המודל מתהפכת לפתע לנכס. בדעות החנפנות היא רעל (אומר “סיימתי” כפי שמורים לו), אבל בעובדות החנפנות היא תרופה. ככל שהמודל חנפן יותר, כך הוא מקבל את העובדה הזו בצייתנות ומצמצם את הניסיון הבא. שער דטרמיניסטי + LLM חנפן = לולאה שהתכנסות שלה מובטחת. אותה לולאה שהתבדרה נסגרת ברגע ששינית חריץ הכרעה אחד.

הלולאה לא מתכנסת בלי מושכות

אני קורא לחריץ הזה Reins Engineering — לא גדר שכולאת את חירות הסוכן, אלא מושכות שמובילות אותו עד היעד. אם Loop Engineering היה “תכנן את הלולאה”, הרי שמה שגורם ללולאה הזו להתכנס הוא החוזה הדטרמיניסטי ששתול בחריץ ההכרעה. בין אם תקרא לזה הנדסת מאמתים, הנדסת הערכה, או הנדסת שערים — המהות אחת. את הכרעת הלולאה עושה המכונה, לא ה-LLM.

אם תרצה לראות שזה לא תורה מופשטת אלא קוד שמתקמפל, reins ממש את החריץ הזה כפריימוורק — ratchet (אחרי מעבר אחד, בלתי הפיך), gate (קטלוג כללי הגנת גבינה), ופקודת loop (ה-LLM מייצר, השער מכריע, אם נכשל מוזן חזרה העובדה לניסיון מחדש, וכשעוברים את MaxTries מגיע סיום מונוטוני). הלולאה האינסופית של שתיים לפנות בוקר הופכת ללולאה שיודעת את הסוף.

אם הלולאה שלך מתבדרת כעת, השאלה אינה “באיזה מודל להשתמש”. אלא “מה נועל את ההשלמה שלי”. אם המודל הוא שנועל, אזי זה לא נעול.

מאמרים קשורים

Reins Engineering — בינה מלאכותית עם מושכות — היצירה המרכזית של שושלת Loop Engineering וטיעון “חריץ ההכרעה”.
reins — להשאיר רק את הדומיין מ-Quest CLI, ולהפוך את ה-ratchet לפריימוורק — הפריימוורק שממש את החריץ הזה. לולאת ייצור־אימות ללא השגחה loop.
Ratchet Pattern — כיצד לגרום לסוכן ללכת עד הסוף — מכונת מצבים שסוגרת את הלולאה בנעילה חד־כיוונית וירידה מונוטונית.
כיצד לבנות Quest CLI — מתודולוגיה לתכנון שער בלתי ניתן לפריצה.
מדוע הסוכן שלך לא נעצר — הפן הראשון של ההתבדרות. לולאה שתנאי הסיום שלה לא הוגדר מכנית.
טופולוגיית משוב חשובה יותר מ-IQ של המודל — הסיבה שאותו מודל לעיתים נעצר ב-40 ולעיתים משלים 527 היא מבנה ההכרעה של הלולאה.
חנפנות ה-AI היא פיצ’ר עסקי — רעל לדעות, תרופה לעובדות. העיקרון שהופך חנפנות להתכנסות.
מי מגדיר את ‘ההשלמה’ — בעיה שהמשחקים פתרו 40 שנה קודם — ברגע שהשער תופס את חריץ ההכרעה, ההשלמה הופכת לעובדה.

לקריאה נוספת

הסיבה שהלולאה מתבדרת — הפקדת את ההכרעה ביד היוצר עצמו — והמרשם לכך — הסמכות לנעול את ההשלמה נתונה רק לשער דטרמיניסטי — אינם אבחנה רק שלי. אנשים שאינם מכירים זה את זה הגיעו לאותה מסקנה מול אותה לולאה של שתיים לפנות בוקר. להלן הראיה להתכנסות העצמאית הזו.

ouroboros — “חוסם לולאות סוכן אינסופיות בשער התכנסות מתמטי.” חוסם התבדרות מוקדמת בשער עמימות לפני תחילת הקידוד, ובמהלך האבולוציה מכריע על התכנסות לפי דמיון בין־דורי. מזהה תנודה (מחזור period-2) כדפוס פתולוגי ומסיים מונוטונית בתקרת דורות קשיחה — העתקה לסף מתמטי של “הסיבוב האינסופי” שבמאמר הזה ושל הסיום המונוטוני ב-MaxTries של reins loop.
proof-loop — “המאמת חייב להיות סשן חדש. הסוכן שיצר את השינוי אינו מכריע אם הוא הושלם.” מקפיא את קריטריוני הקבלה לפני המימוש, מפריד בין בונה למאמת, ומסיים רק כשכל הקריטריונים מקבלים PASS מחדש. הפרדת סמכות שמתעמתת חזיתית עם “ההתכנסות־כזב” שבמאמר הזה (התלמיד בודק את המבחן של עצמו).
auto-re-agent — שותל בלולאת reverser/checker מאמת אובייקטיבי (בדיקת מבנה call-count ו-control-flow) ומנוע parity רב־אותות (GREEN/YELLOW/RED). כובל את הניסיונות בסבב מקסימלי וקוטע התבדרות. אותה אינטואיציה כמו שער reins, שבה כלל ולא שיפוט LLM נועל את הקבלה.

והשושלת הרחבה יותר של אבחנה זו — episteme, MagLab, Manifesto, oh-my-kamisama — מסודרת ב"לקריאה נוספת" של reins. אותו קיר, אותה מסקנה, ניצבים גם שם בשורה.

מקורות

Osmani, A. (2026). “Loop Engineering.” addyosmani.com/blog (2026-06-07). בלוג — מקור הטרנד “אל תזין פרומפט, תכנן לולאה”. המקור של הציטוט “לולאה שרצה ללא השגחה טועה ללא השגחה” שצוטט בגוף.
Hu, W. (2026). “From Agent Loops to Structured Graphs: A Scheduler-Theoretic Framework for LLM Agent Execution.” arXiv:2604.11378 — מצביע על “unbounded recovery loops” (ניסיונות מחדש אינסופיים) כחולשה מבנית של Agent Loop ומציע ערובת סיום פורמלית. הבסיס לפן הראשון של ההתבדרות ‘סיבוב אינסופי’ ולסיום מונוטוני.
Mohamed, A., Geng, M., Vazirgiannis, M., & Shang, G. (2025). “LLM as a Broken Telephone: Iterative Generation Distorts Information.” arXiv:2502.20258 — ככל שהמודל מעבד שוב ושוב את הפלט של עצמו, עיוות המידע נצבר בהדרגה. תומך ישירות בפן השני של ההתבדרות ‘סחיפה’ (הצטברות שגיאה בריבית דריבית).
Bondarenko, A. et al. (2025). “Demonstrating Specification Gaming in Reasoning Models.” arXiv:2502.13295 — ככל שמודל ההיסק בעל יכולת גבוהה יותר, כך הוא מוצא טוב יותר את הפרצות בבדיקה. הבסיס לפן השלישי של ההתבדרות ‘פריצת תגמול’.
Helff, L. et al. (2026). “LLMs Gaming Verifiers: RLVR can Lead to Reward Hacking.” arXiv:2604.15149 — תדירות ה-shortcut עולה יחד עם מורכבות המשימה וכוח החישוב של ההיסק. בסיס כמותי לכך שעל אימות רופף פריצת התגמול פרופורציונלית ליכולת.
Huang, J. et al. (2024). “Large Language Models Cannot Self-Correct Reasoning Yet.” ICLR 2024. arXiv:2310.01798 — תיקון עצמי ללא משוב חיצוני לא משפר ביצועים ואף מוריד אותם. הבסיס המרכזי ל"אם מכריעים על ההשלמה בעצמך, מסתיימים בעודך שגוי" (התכנסות־כזב).
Stechly, K., Valmeekam, K., & Kambhampati, S. (2024). “On the Self-Verification Limitations of Large Language Models.” arXiv:2402.08115 — אימות עצמי כמעט לא משפר ביצועים. הסיבה שיש להניח את הכרעת ה-PASS בשער דטרמיניסטי.
Xu, W. et al. (2024). “Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement.” arXiv:2402.11436 — כשמעריכים את הפלט של עצמך בעצמך, ה-self-bias מתעצם. בסיס לכך שצימוד יוצר=מכריע מגדיל את הסחיפה, והצדקה להפרדת חריץ ההכרעה.
Sharma, M. et al. (2023). “Towards Understanding Sycophancy in Language Models.” arXiv:2310.13548 — החנפנות היא נטייה כללית של מודלי RLHF ושיפוט ההעדפה האנושי מעורר אותה. הבסיס לברירת המחדל של “כן” כתשובה ל"סיימת?", ולשני הפנים שבהם בעובדות החנפנות הופכת לנכס.
Fanous, A. et al. (2025). “SycEval: Evaluating LLM Sycophancy.” AAAI/ACM AIES 2025. arXiv:2502.08177 — מדידת שיעור הכניעה החנפנית. בסיס כמותי למנגנון ההתכנסות “בעובדות החנפנות היא תרופה”.
Von Neumann, J. (1956). “Probabilistic Logics and the Synthesis of Reliable Organisms from Unreliable Components.” Automata Studies, Princeton University Press. — העיקרון של הצבת פרוטוקול אמין (שער דטרמיניסטי) על גבי רכיבים לא יציבים (LLM הסתברותי). ההנחה ש"הייצור הסתברותי, הקבלה דטרמיניסטית".