tsma -- קו ההגנה נגד רגרסיות בקוד ישן

tsma – קו ההגנה נגד רגרסיות בקוד ישן Image: AI generated

אם אתם רוצים לבצע refactoring לקוד ישן עם AI אבל אין טסטים, אם ה-LLM שלכם כותב טסטים אבל עוצר באמצע, אם אתם רוצים לעקוב אחרי כיסוי באופן מכני תוך שליטה בסוכן – tsma בונה את קו ההגנה הזה.

איך מבצעים refactoring לקוד בלי טסטים?

קיבלתם בירושה 100,000 שורות קוד ישן. בלי טסטים. רוצים לעשות refactoring, אבל לא יודעים מה ישבר אם נוגעים. כדי לכתוב טסטים צריך להבין את הקוד, וכדי להבין את הקוד צריך תיעוד – שלא קיים.

אף אחד לא נוגע. הקוד ממשיך להירקב.

כל קוד ישן בעולם תקוע בקיפאון הזה. 60-80% מתקציב ה-IT של חברות Fortune 500 מוקדש לתחזוקת מערכות ישנות. 42% מזמן המפתחים מוקדש לטיפול בחוב טכני.

מה אם LLM יכול לכתוב את הטסטים במקומכם?

הבעיות כשמפקידים טסטים בידי LLM

כשאומרים ל-LLM “כתוב טסט לפונקציה הזו”, משהו יוצא. הבעיה משולשת.

ראשית, לא יודעים מאיפה להתחיל. כשיש 527 פונקציות – לפי הסדר מהראשונה? הכי חשובה קודם? אין קריטריון.

שנית, אי אפשר לאמת את איכות הטסטים. הטסט שה-LLM כתב עבר. אבל האם הטסט הזה באמת מוודא את התנהגות הפונקציה, או שזה סתם קריאה לפונקציה בלי assert אחד? צריך לקרוא כל טסט ידנית כדי לדעת.

שלישית, בלי משוב ה-LLM נתקע ב-60-70%. לפי המחקר האמפירי של Schafer ואח’ (2023), החציון של טסטים שנוצרו על ידי LLM הוא 70.2% statement coverage ו-52.8% branch coverage. רק עם “כתוב טסט לפונקציה הזו” לא מגיעים ל-100% branch coverage. צריך לומר ל-LLM אילו ענפים חסרים כדי שישלים את השאר.

ה-LLM לא חסר יכולת לכתוב טסטים. הבעיה היא שאין מבנה שאומר ל-LLM מה לבדוק וכמה טוב הוא בדק.

tsma: מסילת טסטים שרצה בפקודה אחת

tsma הוא כלי CLI שמאנדקס את כל הפונקציות בפרויקט, מזהה קיום טסטים, מודד coverage ונותן ל-LLM agent משוב מדויק.

הפקודה היחידה שה-agent צריך לדעת:

$ tsma next

הפקודה הזו מניעה את כל הלולאה:

$ tsma next          # מציגה את הפונקציה הבאה ללא טסט
  → כותבים טסט
$ tsma next          # מזהה את הטסט החדש, מריצה, מודדת coverage
  → 100%? PASS, הלאה לפונקציה הבאה
  → <100%? מציגה ענפים לא מכוסים עם מספרי שורות
$ tsma next          # מודדת מחדש את הטסט המתוקן
  → השתפר או לא, מסמנת DONE וממשיכה הלאה

חוזרים עד שמופיע “All functions complete!”.

אומת על 527 פונקציות

tsma הופעל על פרויקט Go אמיתי עם 527 פונקציות.

תוצאה	מספר	אחוז
PASS (100% branch coverage)	246	46.7%
DONE (best-effort)	281	53.3%
TODO (לא טופל)	0	0%

246 פונקציות הגיעו ל-100% branch coverage. 281 הנותרות לא הגיעו ל-100%, אבל טסטים נכתבו עד כמה שניתן.

אבל 100% branch coverage לא אומר 100% נכונות. tsma מאמת שכל ענף מורץ, לא שכל assertion משמעותי – coverage הוא רצפת האיכות, לא התקרה.

למה יש פונקציות שלא מגיעות ל-100%?

פונקציות שמגיעות ל-100% – ואלה שלא

האם פונקציה יכולה להגיע ל-100% branch coverage תלוי באיך היא מקבלת את התלויות שלה.

Interface (mockable) – 100% אפשרי:

type Handler struct {
    svc AuthSvc              // interface -- ניתן להחליף ב-mock
}

בטסט מזריקים mock ושולטים בכל הנתיבים:

svc := mocks.NewMockAuthSvc(ctrl)
svc.EXPECT().Login(...).Return(result, nil)   // נתיב הצלחה
svc.EXPECT().Login(...).Return(nil, err)      // נתיב כישלון

טיפוס קונקרטי (not mockable) – 100% בלתי אפשרי:

type Handler struct {
    svc *service.SMSImportService    // מצביע ל-struct -- לא ניתן להחלפה
}

המימוש האמיתי רץ עם תלויות פנימיות כמו בסיס נתונים או API חיצוני. אי אפשר לגרום לשגיאה ספציפית או לתוצאה ספציפית. ענפים שתלויים בתוצאות כאלה לא נגישים ב-unit test.

התגובה של tsma: אחרי משוב על ענפים לא מכוסים, ניסיון נוסף. אם עדיין לא מגיעים – מסומן כ-DONE. זו לא מגבלה של הכלי אלא שיקוף של יכולת הבדיקה של הקוד. הדילמה של קוד ישן ש-Feathers (2004) מיסד – “כדי לשנות קוד צריך טסטים, כדי להוסיף טסטים צריך לשנות קוד” – נפתרת על ידי שבירת תלויות והכנסת interfaces (DI). עם interfaces אפשר להגיע ל-100% – אבל זה דורש שינוי בקוד המקורי.

משוב משנה את הטסטים של LLM באופן דרמטי

הערך המרכזי של tsma הוא לא האינדוקס ולא מדידת ה-coverage. הערך הוא הצגת ענפים לא מכוסים עם מספרי שורות מדויקים.

בלי משוב:

"כתוב טסט לפונקציה ListContracts"
→ LLM בודק רק את ה-happy path
→ coverage 60-70%

עם משוב:

"כתוב טסט לפונקציה ListContracts"
→ coverage 65% (11/17)
→ UNCOVERED:
    line 41 -- if params.Status != nil
    line 44 -- if params.BuildingId != nil
    line 70 -- if err != nil (CountSummary)
→ LLM מוסיף טסטים שמכסים בדיוק את הענפים האלה
→ coverage 100%

אותו LLM בדיוק. ההבדל היחיד הוא המשוב. שלוש שורות עם מספרי שורות מפרידות בין 60% ל-100%. CoverUp (Pizzorno & Berger, 2024) הוכיח את אותו עיקרון באופן אמפירי. על ידי הכנסה חוזרת של תוצאות ניתוח coverage ל-prompt ומיקוד תשומת הלב של ה-LLM בשורות לא מכוסות, הם הגיעו לחציון line coverage ברמת מודול של 81% – שיפור של 19pp לעומת baseline ללא משוב.

כשה-agent קורס, ההתקדמות נשמרת

LLM agents קורסים. מגבלת tokens, שגיאת רשת, ניתוק סשן. אי אפשר לטפל ב-527 פונקציות בסשן אחד.

tsma שומר את מצב ההתקדמות בקובץ .tsma/session.json.

$ tsma status

527 functions
PASS:  246 (46.7%)
DONE:  281 (53.3%)
TODO:    0 (0.0%)

ה-agent קרס בפונקציה ה-200? agent חדש מקליד tsma next וממשיך מה-201. session.json הוא ה-checkpoint.

כמה agents יכולים לעבוד לסירוגין בלי התנגשויות. כל פונקציה היא יחידה אטומית.

הסשן הוא cache, קובץ המקור הוא האמת

עיקרון תכנוני של tsma: הסשן הוא cache וקובץ המקור הוא ה-source of truth.

אם מוחקים קובץ טסט, הפונקציה חוזרת ל-TODO – גם אם session.json מסמן אותה כ-PASS. הסשן לעולם לא מתנתק מהמציאות.

עיקרון:
  Session.json אומר "PASS"?
  אין קובץ טסט → TODO
  קובץ המקור השתנה → מדידה מחדש

tsma next (וגם tsma status) סורקת מחדש את המקור בכל פעם ומיישרת מחדש את קבוצת הפונקציות – פונקציות שנוספו או חולצו מחדש צפות כ-TODO, פונקציות שנמחקו נושרות, וההתקדמות הקיימת נשמרת. לכן refactoring שמוסיף פונקציות לא יכול להשאיר “All functions complete!” כשקר. כדי לכפות סנכרון בלבד בלי לגעת בהתקדמות משתמשים ב-tsma rescan (tsma reset --all מוחק את הסשן כולו). כדי לראות את כל הפונקציות עם הסטטוס שלהן – tsma list.

הוראות ל-LLM agent

ה-agent צריך 6 שורות הוראות:

1. להריץ tsma next
2. TODO -- לקרוא את הפונקציה ולכתוב טסט
3. טסט נכשל -- לקרוא את השגיאה ולתקן את הטסט
4. ענפים לא מכוסים מוצגים -- להוסיף טסטים שמכסים אותם
5. PASS/DONE -- הפונקציה הבאה מוצגת אוטומטית
6. לחזור עד שמופיע "All functions complete!"

ה-agent צריך לדעת פקודה אחת בלבד: tsma next. השאר נכפה על ידי ה-CLI.

הרכבת והמסילה

Vibe coding זו רכבת. מהירה. אבל בלי מסילה היא יוצאת מהפסים.

כל כלי ה-AI coding מתמקדים בלהפוך את הרכבת למהירה יותר. מודלים גדולים יותר, agents חכמים יותר, prompts טובים יותר. אבל ככל שהרכבת מהירה יותר, הנזק מיציאה מהפסים גדול יותר.

tsma היא המסילה. ה-LLM מייצר טסטים (Neural), ה-CLI מגדיר “עד כאן ולא יותר” (Symbolic Constraint). היצירתיות של ה-LLM נשארת כמות שהיא, אבל איכות התוצאה נכפית על ידי המכונה.

	קודם	tsma
כתיבת טסטים	אדם (איטי) או LLM (כאוטי)	LLM כותב, CLI מאמת
מאיפה מתחילים?	אדם מחליט	CLI קובע את הסדר
בדיקת איכות	אדם עושה review	CLI מודד coverage
משוב	אין	ענפים לא מכוסים עם מספרי שורות
מעקב התקדמות	אין	session.json אוטומטי

ה-LLM מייצר בחופשיות. אבל הוא רץ רק על המסילה של tsma next.

תמיכה בשפות

יש תמיכה ב-6 שפות.

שפה	סמן זיהוי	Indexer	Test Runner	Coverage
Go	`go.mod`	`go/ast`	`go test`	`go test -coverprofile`
TypeScript	`package.json`	regex	`npx vitest` / `npx jest`	`c8` / `istanbul`
Python	`pyproject.toml` וכו'	regex	`pytest`	`coverage.py`
Rust	`Cargo.toml`	regex	`cargo test`	`cargo llvm-cov`
Java	`pom.xml` / `build.gradle`	regex	`mvn` / `gradle test` (מודע-מודולים)	JaCoCo
C#	`.csproj` / `.sln`	regex	`dotnet test --filter`	coverlet (Cobertura)

Go משתמש ב-AST parser לחילוץ פונקציות מדויק, השאר מבוססים על ביטויים רגולריים. התאמת הטסטים עוקבת אחר קונבנציות – Go handler.go → handler_test.go, TS .test.ts/.spec.ts, Python קידומת test_, Rust #[cfg(test)] mod tests או tests/*.rs, Java FooTest.java, C# FooTests.cs.

קבצים שנוצרו אוטומטית (*_gen.go, *.pb.go) ונתיבי החרגה ברירת מחדל (vendor/, .git/, .tsma/, node_modules/) מוחרגים אוטומטית מהאינדוקס. אם צריך החרגה מותאמת אישית, מניחים קובץ .tsmignore (באותו תחביר כמו .gitignore) בשורש הפרויקט.

התקנה והרצה

go install github.com/park-jun-woo/tsma/cmd/tsma@latest
# או כסקיל של Claude Code:
npx skills add park-jun-woo/tsma

cd your-legacy-project
tsma next

זה הכל.

MIT License. github.com/park-jun-woo/tsma

מקורות

Schafer, M., Nadi, S., Eghbali, A., & Tip, F. (2023). An Empirical Evaluation of Using Large Language Models for Automated Unit Test Generation. IEEE Transactions on Software Engineering, 50(1), 85–105. arXiv:2302.06527
Pizzorno, J. A., & Berger, E. D. (2024). CoverUp: Coverage-Guided LLM-Based Test Generation. arXiv preprint arXiv:2403.16218. arXiv:2403.16218
Ryan, G., Jain, S., Shang, M., Wang, S., Ma, X., Ramanathan, M. K., & Ray, B. (2024). Code-Aware Prompting: A Study of Coverage-Guided Test Generation in Regression Setting using LLM. Proceedings of the ACM on Software Engineering (FSE 2024), 1(FSE), 951–971. ACM DL
Lemieux, C., Inala, J. P., Lahiri, S. K., & Sen, S. (2023). CodaMOSA: Escaping Coverage Plateaus in Test Generation with Pre-trained Large Language Models. ICSE 2023, 951–963. ACM DL
Feathers, M. C. (2004). Working Effectively with Legacy Code. Prentice Hall. ACM DL
Besker, T., Martini, A., & Bosch, J. (2018). Technical Debt Cripples Software Developer Productivity. TechDebt 2018, 105–114. ACM DL
Stripe. (2018). The Developer Coefficient. PDF
U.S. Government Accountability Office. (2019). Information Technology: Agencies Need to Develop Modernization Plans for Critical Legacy Systems. GAO-19-471. GAO
Tornhill, A., & Borg, M. (2022). Code Red: The Business Impact of Code Quality. TechDebt 2022, 11–20. arXiv:2203.04374
Peng, S., Kalliamvakou, E., Cihon, P., & Demirer, M. (2023). The Impact of AI on Developer Productivity: Evidence from GitHub Copilot. arXiv:2302.06590

קשור: Ratchet Pattern – איך לגרום לסוכן לסיים את העבודה – הדפוס מאחורי tsma. למה אימות מכני עדיף על שיפוט של LLM.

קשור: IQ של מודל חשוב פחות מטופולוגיית הפידבק – למה מבנה הפידבק קובע תוצאות יותר מביצועי המודל.

יומן שינויים

2026-06-18: שיקוף v0.5.0 – תמיכה ב-6 שפות (נוספו Rust·Java·C#), התקנה go install/npx skills add, פקודות tsma rescan·list·reset, החרגה מותאמת אישית .tsmignore, הוספת הערה ש-coverage ≠ נכונות
2026-05-14: מהדורה ראשונה