tsma -- Garis Pertahanan Regresi untuk Kode Legacy

tsma – Garis Pertahanan Regresi untuk Kode Legacy Image: AI generated

Jika Anda ingin refactoring kode legacy dengan AI tapi tidak ada test, jika LLM Anda menulis test tapi berhenti di tengah jalan, jika Anda ingin melacak coverage secara mekanis sambil mengendalikan agen — tsma membangun garis pertahanan itu.

Bagaimana cara refactoring kode tanpa test?

Anda mewarisi seratus ribu baris kode legacy. Tidak ada test. Ingin refactoring, tapi tidak tahu apa yang akan rusak kalau disentuh. Untuk menulis test, perlu memahami kodenya; untuk memahami kode, perlu dokumentasi – yang juga tidak ada.

Tidak ada yang berani menyentuh. Semakin membusuk.

Semua kode legacy di dunia terjebak dalam kebuntuan ini. Perusahaan Fortune 500 menghabiskan 60-80% anggaran IT mereka untuk pemeliharaan sistem legacy. 42% waktu developer dihabiskan untuk menangani utang teknis.

Bagaimana kalau LLM bisa menulis test untuk Anda?

Masalah saat menyerahkan test ke LLM

Ketika Anda meminta LLM “tulis test untuk fungsi ini”, sesuatu memang keluar. Masalahnya ada tiga:

Pertama, tidak tahu harus mulai dari mana. Dengan 527 fungsi – mulai dari nomor 1 secara berurutan? Dari yang paling penting? Tidak ada kriteria.

Kedua, kualitas test tidak bisa diverifikasi. LLM menulis test dan lolos. Tapi apakah test itu benar-benar memverifikasi perilaku fungsi, atau hanya memanggil tanpa assert – cangkang kosong? Harus dibaca manual satu per satu.

Ketiga, tanpa feedback, test dari LLM berhenti di 60-70%. Menurut studi empiris Schafer et al. (2023), median test yang dihasilkan LLM adalah 70.2% statement coverage dan 52.8% branch coverage. Hanya “test fungsi ini” saja tidak cukup untuk mencapai 100% branch coverage. Harus diberitahu branch mana yang terlewat agar bisa dilengkapi.

LLM bukan tidak mampu menulis test. Masalahnya adalah tidak ada struktur yang memberitahu apa yang harus ditulis dan seberapa baik hasilnya.

tsma: Rel test yang berjalan dengan satu perintah

tsma adalah alat CLI yang mengindeks semua fungsi dalam proyek, mendeteksi keberadaan test, mengukur coverage, dan memberikan feedback akurat kepada agen LLM.

Perintah yang perlu diketahui agen hanya satu:

$ tsma next

Satu perintah ini menggerakkan seluruh loop:

$ tsma next          # Menampilkan fungsi berikutnya yang belum punya test
  → Tulis test-nya
$ tsma next          # Mendeteksi test baru, menjalankan, mengukur coverage
  → 100%? PASS, lanjut ke fungsi berikutnya
  → <100%? Menampilkan branch yang belum ter-cover beserta nomor baris
$ tsma next          # Mengukur ulang test yang sudah diperbaiki
  → Membaik atau tidak, ditandai DONE dan lanjut

Diulang sampai muncul “All functions complete!”.

Divalidasi pada 527 fungsi

tsma diterapkan pada proyek Go nyata (527 fungsi).

Hasil	Jumlah	Persentase
PASS (100% branch coverage)	246	46.7%
DONE (best-effort)	281	53.3%
TODO (belum diproses)	0	0%

246 fungsi mencapai 100% branch coverage. 281 sisanya tidak mencapai 100%, tetapi test ditulis sejauh yang memungkinkan.

Namun, 100% branch coverage tidak berarti 100% kebenaran. tsma memverifikasi apakah semua branch dieksekusi, bukan apakah semua assertion bermakna – coverage adalah batas bawah kualitas, bukan batas atas.

Mengapa ada fungsi yang tidak bisa mencapai 100%?

Fungsi yang mencapai 100% dan yang tidak

Apakah sebuah fungsi bisa mencapai 100% branch coverage bergantung pada bagaimana ia menerima dependensinya.

Interface (mockable) – 100% bisa dicapai:

type Handler struct {
    svc AuthSvc              // interface -- bisa diganti dengan mock
}

Dengan meng-inject mock dalam test, semua jalur bisa dikontrol:

svc := mocks.NewMockAuthSvc(ctrl)
svc.EXPECT().Login(...).Return(result, nil)   // jalur sukses
svc.EXPECT().Login(...).Return(nil, err)      // jalur gagal

Tipe konkret (not mockable) – 100% tidak mungkin:

type Handler struct {
    svc *service.SMSImportService    // pointer struct -- tidak bisa diganti
}

Implementasi asli berjalan dengan dependensi internal seperti database dan API eksternal. Tidak bisa memicu error tertentu atau memaksa hasil tertentu. Branch yang bergantung pada hasil tersebut tidak bisa dijangkau oleh unit test.

Respons tsma: Setelah feedback tentang branch yang belum ter-cover, mencoba sekali lagi. Kalau tetap tidak tercapai, diterima sebagai DONE. Ini bukan keterbatasan alat, melainkan cerminan testability kode. Dilema kode legacy yang disistematisasi oleh Feathers (2004) – “untuk mengubah kode butuh test, untuk menambah test butuh mengubah kode” – solusinya adalah memutus dependensi dan memperkenalkan interface (DI). Memperkenalkan interface membuat 100% menjadi mungkin, tapi itu berarti memodifikasi kode asli.

Feedback mengubah test LLM secara drastis

Nilai inti tsma bukan indexing atau pengukuran coverage. Melainkan menunjuk branch yang belum ter-cover secara tepat dengan nomor baris.

Tanpa feedback:

"Tulis test untuk fungsi ListContracts"
→ LLM hanya menguji happy path
→ Coverage 60-70%

Dengan feedback:

"Tulis test untuk fungsi ListContracts"
→ Coverage 65% (11/17)
→ UNCOVERED:
    line 41 -- if params.Status != nil
    line 44 -- if params.BuildingId != nil
    line 70 -- if err != nil (CountSummary)
→ LLM menambahkan test yang meng-cover branch tersebut secara tepat
→ Coverage 100%

LLM yang sama. Perbedaannya hanya ada atau tidaknya feedback. Tiga baris nomor baris memisahkan 60% dan 100%. CoverUp (Pizzorno & Berger, 2024) membuktikan prinsip yang sama secara empiris. Dengan memasukkan hasil analisis coverage berulang kali ke dalam prompt dan memfokuskan perhatian LLM pada baris yang belum ter-cover, mereka mencapai median line coverage tingkat modul sebesar 81% – peningkatan 19pp dibandingkan baseline tanpa feedback.

Agen mati pun, progres tetap tersimpan

Agen LLM bisa crash. Batas token, error jaringan, sesi terputus. Tidak mungkin memproses 527 fungsi dalam satu sesi.

tsma menyimpan status progres secara persisten di .tsma/session.json.

$ tsma status

527 functions
PASS:  246 (46.7%)
DONE:  281 (53.3%)
TODO:    0 (0.0%)

Agen berhenti di fungsi ke-200? Agen baru menjalankan tsma next dan melanjutkan dari ke-201. session.json adalah checkpoint.

Beberapa agen bisa bergantian bekerja tanpa konflik. Operasi bersifat atomik di level fungsi.

Session adalah cache, file sumber adalah kebenaran

Salah satu prinsip desain tsma: session adalah cache dan file sumber adalah source of truth.

Jika Anda menghapus file test, meskipun session.json mencatatnya sebagai PASS, fungsi tersebut kembali menjadi TODO. Session tidak terlepas dari kenyataan.

Prinsip:
  Meskipun session.json mengatakan "PASS"
  Jika file test tidak ada → TODO
  Jika file sumber berubah → diukur ulang

tsma next (dan tsma status) memindai ulang sumber setiap kali untuk merekonsiliasi himpunan fungsi – fungsi yang baru ditambahkan atau diekstraksi muncul sebagai TODO, fungsi yang dihapus terlepas, dan progres yang ada tetap terjaga. Karena itu refactoring yang menambah fungsi tidak bisa membuat “All functions complete!” menjadi palsu. Untuk memaksa sinkronisasi tanpa menyentuh progres, gunakan tsma rescan (tsma reset --all menghapus seluruh session). Untuk melihat semua fungsi beserta statusnya, gunakan tsma list.

Instruksi untuk agen LLM

Agen hanya butuh 6 baris:

1. Jalankan tsma next
2. Jika TODO -- baca fungsinya dan tulis test
3. Jika test gagal -- baca error-nya dan perbaiki test
4. Jika branch belum ter-cover muncul -- tambahkan test yang meng-cover-nya
5. Jika PASS/DONE -- fungsi berikutnya muncul otomatis
6. Ulangi sampai muncul "All functions complete!"

Perintah yang perlu diketahui agen hanya tsma next. Sisanya dikontrol oleh CLI.

Kereta dan rel

Vibe coding adalah kereta. Cepat. Tapi tanpa rel, tergelincir.

Semua alat AI coding fokus pada membuat kereta lebih cepat. Model lebih besar, agen lebih pintar, prompt lebih baik. Tapi semakin cepat keretanya, semakin besar kerusakan saat tergelincir.

tsma adalah relnya. LLM menghasilkan test (Neural), dan CLI mendefinisikan “sampai sini saja” (Symbolic Constraint). Kreativitas LLM tetap bebas, tapi kualitas hasil dipaksakan oleh mesin.

	Konvensional	tsma
Penulisan test	Manusia (lambat) atau LLM (kacau)	LLM menulis, CLI memverifikasi
Mulai dari mana?	Manusia memutuskan	CLI menentukan urutan
Pemeriksaan kualitas	Manusia me-review	CLI mengukur coverage
Feedback	Tidak ada	Nomor baris branch yang belum ter-cover
Pelacakan progres	Tidak ada	session.json otomatis

LLM menghasilkan dengan bebas. Tapi hanya berjalan di atas rel tsma next.

Dukungan bahasa

Mendukung 6 bahasa.

Bahasa	Penanda deteksi	Indexer	Test Runner	Coverage
Go	`go.mod`	`go/ast`	`go test`	`go test -coverprofile`
TypeScript	`package.json`	regex	`npx vitest` / `npx jest`	`c8` / `istanbul`
Python	`pyproject.toml` dll.	regex	`pytest`	`coverage.py`
Rust	`Cargo.toml`	regex	`cargo test`	`cargo llvm-cov`
Java	`pom.xml` / `build.gradle`	regex	`mvn` / `gradle test` (sadar modul)	JaCoCo
C#	`.csproj` / `.sln`	regex	`dotnet test --filter`	coverlet (Cobertura)

Go menggunakan parser AST untuk ekstraksi fungsi yang akurat, sisanya berbasis ekspresi reguler. Pencocokan test mengikuti konvensi – Go handler.go → handler_test.go, TS .test.ts/.spec.ts, prefiks test_ untuk Python, Rust #[cfg(test)] mod tests atau tests/*.rs, Java FooTest.java, C# FooTests.cs.

File yang di-generate (*_gen.go, *.pb.go) dan jalur yang dikecualikan secara default (vendor/, .git/, .tsma/, node_modules/) otomatis dikeluarkan dari indexing. Jika perlu pengecualian khusus, letakkan file .tsmignore (dengan sintaks yang sama seperti .gitignore) di root proyek.

Instalasi dan menjalankan

go install github.com/park-jun-woo/tsma/cmd/tsma@latest
# atau lewat skill Claude Code:
npx skills add park-jun-woo/tsma

cd your-legacy-project
tsma next

Itu saja.

MIT License. github.com/park-jun-woo/tsma

Referensi

Schafer, M., Nadi, S., Eghbali, A., & Tip, F. (2023). An Empirical Evaluation of Using Large Language Models for Automated Unit Test Generation. IEEE Transactions on Software Engineering, 50(1), 85–105. arXiv:2302.06527
Pizzorno, J. A., & Berger, E. D. (2024). CoverUp: Coverage-Guided LLM-Based Test Generation. arXiv preprint arXiv:2403.16218. arXiv:2403.16218
Ryan, G., Jain, S., Shang, M., Wang, S., Ma, X., Ramanathan, M. K., & Ray, B. (2024). Code-Aware Prompting: A Study of Coverage-Guided Test Generation in Regression Setting using LLM. Proceedings of the ACM on Software Engineering (FSE 2024), 1(FSE), 951–971. ACM DL
Lemieux, C., Inala, J. P., Lahiri, S. K., & Sen, S. (2023). CodaMOSA: Escaping Coverage Plateaus in Test Generation with Pre-trained Large Language Models. ICSE 2023, 951–963. ACM DL
Feathers, M. C. (2004). Working Effectively with Legacy Code. Prentice Hall. ACM DL
Besker, T., Martini, A., & Bosch, J. (2018). Technical Debt Cripples Software Developer Productivity. TechDebt 2018, 105–114. ACM DL
Stripe. (2018). The Developer Coefficient. PDF
U.S. Government Accountability Office. (2019). Information Technology: Agencies Need to Develop Modernization Plans for Critical Legacy Systems. GAO-19-471. GAO
Tornhill, A., & Borg, M. (2022). Code Red: The Business Impact of Code Quality. TechDebt 2022, 11–20. arXiv:2203.04374
Peng, S., Kalliamvakou, E., Cihon, P., & Demirer, M. (2023). The Impact of AI on Developer Productivity: Evidence from GitHub Copilot. arXiv:2302.06590

Terkait: Ratchet Pattern – Cara Membuat Agent Menyelesaikan Tugasnya – Pola di balik tsma. Mengapa verifikasi mekanis mengalahkan penilaian LLM.

Terkait: IQ Model Kurang Penting Dibanding Topologi Feedback – Mengapa struktur feedback lebih menentukan hasil daripada performa model.

Changelog

2026-06-18: Mengikuti v0.5.0 – dukungan 6 bahasa (penambahan Rust·Java·C#), instalasi go install/npx skills add, perintah tsma rescan·list·reset, pengecualian khusus .tsmignore, penambahan catatan coverage≠kebenaran
2026-05-14: Rilis awal