Image: AI generated
Kuda Tanpa Tali Kekang
Alat coding AI menjadi cepat. Login dalam 30 detik. Pembayaran dalam 2 menit. MVP dikirim dalam tiga minggu.
Tiga bulan kemudian, semuanya runtuh.
AI “membersihkan” logika pembayaran dan mengubah perhitungan diskon. Permintaan refactoring mengubah nama field API publik. Menambahkan fitur baru merusak autentikasi. Menurut penelitian Carnegie Mellon (MSR 2026), kompleksitas kode meningkat permanen 41% setelah adopsi alat coding AI. Google DORA Report (2025) menunjukkan penurunan stabilitas pengiriman 7,2% untuk setiap peningkatan 25% adopsi AI.
Masalahnya bukan AI bodoh. Masalahnya tidak ada tali kekang.
Harness Hanyalah Pagar
Industri menjawab dengan “harness engineering”. Linter, formatter, CI/CD, struktur proyek, panduan coding. Pagar yang mencegah agen keluar.
Pagar tidak menentukan arah. Apa pun yang dilakukan agen di dalam pagar — menimpa logika yang ada, mengubah tipe, melewati transisi state — linter lolos. Formatter lolos. CI lolos. Kode sampai ke produksi “bersih tapi salah”.
Pelana sudah dipasang. Penunggang sudah naik. Tapi tanpa tali kekang, hanya berpegangan dengan paha dan jatuh setelah tiga bulan.
Reins Engineering
Reins Engineering adalah pendekatan rekayasa yang memberikan agen AI kontrak deterministik dan memblokir kemajuan ketika kontrak dilanggar.
Terdiri dari tiga elemen:
1. Umpan Balik Deterministik
Berikan agen fakta, bukan opini. Bukan “ini terlihat aneh” tapi “baris 41: nama field tidak cocok, diharapkan ‘user_id’, didapat ‘userId’.” Umpan balik tanpa ruang untuk penjilatan. Menurut studi TDAD (arxiv 2026), instruksi prosedural “lakukan TDD” memperburuk regresi (6,08% → 9,94%), sementara menyediakan file test spesifik dalam konteks mengurangi regresi 70% (6,08% → 1,82%).
2. Penguncian Kontrak (Ratchet Pattern)
Ketika verifikasi lolos, kunci. Tes Hurl mendeklarasikan perilaku API dalam teks biasa, dijalankan setiap commit di CI. Tes yang lolos tidak bisa dihapus. Agen bebas mengubah kode, tapi tidak bisa mengubah perilaku. Penyimpangan ditekan secara struktural.
3. Memisahkan Keputusan dari Implementasi
Tiga hal yang tercampur dalam kode — keputusan pengguna, logika bisnis, detail implementasi — dipisahkan. Keputusan hidup di spesifikasi deklaratif (OpenAPI, DDL, diagram state). Implementasi dihasilkan secara bebas oleh AI. AI tidak bisa salah mengira keputusan sebagai detail dan menimpanya. Kelangsungan keputusan menjadi independen dari ukuran model.
Evolusi
Prompt Engineering → Say it well and it works
Context Engineering → Give good context and it works
Harness Engineering → Contain it with structure
Reins Engineering → Steer it with direction
Setiap tahap lahir dari keterbatasan tahap sebelumnya. Prompt saja kurang konsistensi. Konteks tidak menghentikan agen dari bertindak liar. Pagar tidak bisa mencegah penyimpangan di dalam perimeter.
Reins Engineering bukan pagar — ini tali kekang. Tidak membatasi kebebasan agen; memastikan agen sampai di tujuan.
Mengapa Model Lebih Besar Bukan Jawabannya
“GPT-6 akan memperbaikinya.”
Tidak akan. Masalahnya bukan kecerdasan model — tapi medianya. Kode sebagai media tidak membedakan keputusan dari implementasi. Model mana pun yang membaca kode melihat keputusan dan detail tercampur dalam teks yang sama.
Model lokal 4.5B (Gemma4) dengan umpan balik deterministik + konteks contoh mengedit SSOT hingga nol kesalahan. Model frontier mengedit kode mentah menghasilkan penyimpangan. Perbedaannya adalah struktur, bukan kecerdasan.
Jangan ganti modelnya. Tambahkan kontrak.
Bukti
yongol adalah implementasi Reins Engineering. Memvalidasi silang konsistensi 10 spesifikasi deklaratif (SSOT) dengan 287 aturan dan menghasilkan kode.
Benchmark ZenFlow — SaaS otomasi alur kerja multi-tenant. 32 endpoint, 14 tabel, 47 permintaan Hurl. 11/11 tahap lolos. Menambah fitur tidak memperlambat. Tes yang ada tidak pernah gagal.
Backend yang berfungsi berhasil dihasilkan dengan model lokal 4.5B. Biaya $0. Offline. Tali kekang menjembatani kesenjangan yang ditinggalkan ukuran model.
Harness Tanpa Tali Kekang Hanyalah Pagar
AI sudah cukup kuat. Yang kurang adalah arah.
Bangun pagar lebih tinggi dan agen menyimpang lebih cepat di dalamnya. Pegang tali kekang dan agen berlari ke tujuan.
Reins Engineering — validasi deterministik terstruktur untuk agen AI.
Related
- yongol — Lunas AI Coding SaaS — Implementasi Reins Engineering.
- Hurl Menghentikan Penyimpangan Vibe Coding — Hurl + ratchet mengunci perilaku API.
- Ratchet Pattern — Teori di balik verifikasi deterministik dan penguncian ratchet.
- IFEval-Exploiting Ratchet Code — Loop umpan balik menggunakan bias penjilatan.
References
- Cursino, D. et al. (2026). “Speed at the Cost of Quality? The Impact of AI Coding on Software.” MSR 2026. arxiv.org/abs/2511.04427
- Google Cloud (2025). DORA Report 2025. cloud.google.com
- Wang, Z. et al. (2026). “TDAD: Test-Driven Agentic Development.” ACM AIWare 2026. arxiv.org/abs/2603.17973
- Karpathy, A. (2026). “From Vibe Coding to Agentic Engineering.” thenewstack.io