LLM

התנאים המוקדמים לשיפור הדיוק של סוכני LLM מרובים
להריץ הרבה סוכנים הופך אותך למדויק יותר? נכון רק חצי. מודלים שאומנו על אותם נתונים טועים באותם מקומות. שני התנאים שבהם מערכת מרובת סוכנים עובדת — או שמתכננים אי-תלות בשגיאות, או שמציבים verifier מחוץ ל-LLM בתחום הניתן לאימות.

קוד סוגר שמנצל את IFEval
הטיית החנפנות של מודלי שפה גדולים היא לא באג אלא נכס. שילוב יכולת מילוי הוראות שנמדדת ב-IFEval עם משוב דטרמיניסטי יוצר לולאת התכנסות שמייצרת קוד נכון, גם עם מודל מקומי של 4.5B.

הטיית Sycophancy ב-AI היא פיצ'ר עסקי
הטיית החנופה של LLM היא לא באג. היא הכרח מתמטי של RLHF ופיצ'ר מסחרי שלחברות הטכנולוגיה הגדולות אין תמריץ לתקן. זו הסיבה ש-LLM-as-Judge בלתי אפשרי מבחינה מבנית.

למה סוכני קידוד עובדים ולמה הם קורסים
אותו מודל הוזה בצ'אט אינטרנטי אבל מספק פיצ'ר של 200 שורות בסוכן קידוד. לא בגלל שהמודל השתנה — בגלל שהטופולוגיה השתנתה. יצירה יכולה להיות הסתברותית. אימות חייב להיות דטרמיניסטי.

טופולוגיית Feedback חשובה מ-IQ של מודל
אותו מודל נעצר ב-40 או משלים את כל 527. ההבדל הוא לא המודל — אלא מבנה המשוב. ביצועי LLM תלויים הרבה יותר במהירות ובדטרמיניזם של לולאת המשוב מאשר במודל עצמו.

tsma -- קו ההגנה נגד רגרסיות בקוד ישן
אינדוקס של כל הפונקציות, זיהוי קיום טסטים, מדידת coverage ומשוב ל-LLM agent -- כלי CLI אחד. בפקודה אחת בונים קו הגנה נגד רגרסיות בקוד ישן.

אילוצים הם חוזים
ללא הבטחות — כאוס. הבטחות עודפות — דיכוי. אילוץ רציונלי מוצא את היחס הזהב. עקרונות שלטון החוק חלים באותה מידה על קוד ועל ידע.

filefunc — קובץ אחד, מושג אחד
יחידת הניווט של סוכן קוד AI היא הקובץ. מוסכמת מבנה קוד ב-Go וכלי CLI שמאכפים מושג אחד לקובץ אחד.