Reins Engineering

Reins Engineering — AI dengan Kendali Image: AI generated

Kuda Tanpa Tali Kekang

Alat coding AI menjadi cepat. Login dalam 30 detik. Pembayaran dalam 2 menit. MVP dikirim dalam tiga minggu.

Tiga bulan kemudian, semuanya runtuh.

AI “membersihkan” logika pembayaran dan mengubah perhitungan diskon. Permintaan refactoring mengubah nama field API publik. Menambahkan fitur baru merusak autentikasi. Menurut penelitian Carnegie Mellon (MSR 2026), kompleksitas kode meningkat permanen 41% setelah adopsi alat coding AI. Google DORA Report (2025) menunjukkan penurunan stabilitas pengiriman 7,2% untuk setiap peningkatan 25% adopsi AI.

Masalahnya bukan AI bodoh. Masalahnya tidak ada tali kekang.

Harness Hanyalah Pagar

Industri menjawab dengan “harness engineering”. Linter, formatter, CI/CD, struktur proyek, panduan coding. Pagar yang mencegah agen keluar.

Pagar tidak menentukan arah. Apa pun yang dilakukan agen di dalam pagar — menimpa logika yang ada, mengubah tipe, melewati transisi state — linter lolos. Formatter lolos. CI lolos. Kode sampai ke produksi “bersih tapi salah”.

Pelana sudah dipasang. Penunggang sudah naik. Tapi tanpa tali kekang, hanya berpegangan dengan paha dan jatuh setelah tiga bulan.

Reins Engineering adalah pendekatan rekayasa yang memberikan agen AI kontrak deterministik dan memblokir kemajuan ketika kontrak dilanggar.

Terdiri dari tiga elemen:

1. Umpan Balik Deterministik

Berikan agen fakta, bukan opini. Bukan “ini terlihat aneh” tapi “baris 41: nama field tidak cocok, diharapkan ‘user_id’, didapat ‘userId’.” Umpan balik tanpa ruang untuk penjilatan. Menurut studi TDAD (arxiv 2026), instruksi prosedural “lakukan TDD” memperburuk regresi (6,08% → 9,94%), sementara menyediakan file test spesifik dalam konteks mengurangi regresi 70% (6,08% → 1,82%).

2. Penguncian Kontrak (Ratchet Pattern)

Ketika verifikasi lolos, kunci. Kode verifikasi yang ditulis dengan cara ini disebut ratchet code. Tes Hurl mendeklarasikan perilaku API dalam teks biasa, dijalankan setiap commit di CI. Ratchet code yang lolos tidak bisa dihapus. Agen bebas mengubah kode, tapi tidak bisa mengubah perilaku. Penyimpangan ditekan secara struktural.

3. Memisahkan Keputusan dari Implementasi

Tiga hal yang tercampur dalam kode — keputusan pengguna, logika bisnis, detail implementasi — dipisahkan. Keputusan hidup di spesifikasi deklaratif (OpenAPI, DDL, diagram state). Implementasi dihasilkan secara bebas oleh AI. AI tidak bisa salah mengira keputusan sebagai detail dan menimpanya. Kelangsungan keputusan menjadi independen dari ukuran model.

Evolusi

Prompt Engineering      → Say it well and it works
Context Engineering     → Give good context and it works
Harness Engineering     → Contain it with structure
Reins Engineering       → Steer it with direction

Setiap tahap lahir dari keterbatasan tahap sebelumnya. Prompt saja kurang konsistensi. Konteks tidak menghentikan agen dari bertindak liar. Pagar tidak bisa mencegah penyimpangan di dalam perimeter.

Reins Engineering bukan pagar — ini tali kekang. Tidak membatasi kebebasan agen; memastikan agen sampai di tujuan.

Pada Juni 2026, silsilah ini mencatat satu nama lagi. Loop Engineering — berhenti menjadi orang yang mem-prompt agen; rancanglah loop yang menghasilkan prompt itu sendiri (Addy Osmani, 2026). Diagnosisnya benar. Loop menskalakan generasi. Tapi loop tidak menskalakan penilaian. Osmani sendiri menuliskan titik lemahnya — “A loop running unattended is also a loop making mistakes unattended.” Ketika loop menjadi universal, bottleneck berpindah ke satu tempat: apa yang Anda pasang di slot verifikasi loop?

Sebut lapisan itu verifier engineering, eval engineering, atau gate engineering — substansinya satu. Slot penilaian loop membutuhkan kontrak deterministik, bukan LLM. Saya menyebutnya Reins Engineering. Tanpa tali kekang, loop tidak konvergen.

80 : 20

Reins Engineering tidak mencakup semuanya. Ia tahu persis apa yang dicakupnya.

Deque Systems menganalisis ~300.000 masalah kualitas aksesibilitas di lebih dari 13.000 halaman (2021). 57% sepenuhnya dapat diotomatisasi, 23% memerlukan bantuan AI, dan 20% hanya bisa dinilai manusia. Aksesibilitas dan kode adalah domain berbeda, tetapi berbagi struktur yang sama: “berapa proporsi yang bisa dinilai mesin?”

Melalui lensa ini, kualitas kode terbagi sebagai berikut:

57% — Wilayah ratchet. Deklarasikan perilaku, mesin menilai pelanggaran tanpa bertanya. go test, Hurl, yongol check, filefunc validate.
23% — Wilayah harness. Linter, formatter, CI. Mekanismenya deterministik, tetapi kedalaman verifikasi tetap di permukaan. Tidak menangkap kebenaran perilaku, tetapi menegakkan struktur dan gaya, meningkatkan kualitas generasi AI.
20% — Wilayah manusia. Kesesuaian bisnis, UX, arah arsitektur.

Reins Engineering tidak menggantikan harness. Ia menungganginya.

Harness (determinisme permukaan)   23%
+ Ratchet (determinisme perilaku)   57%
────────────────────────────────
                                   80%

Manusia fokus pada 20% sisanya.

Mengapa Model Lebih Besar Bukan Jawabannya

“GPT-6 akan memperbaikinya.”

Tidak akan. Masalahnya bukan kecerdasan model — tapi medianya. Kode sebagai media tidak membedakan keputusan dari implementasi. Model mana pun yang membaca kode melihat keputusan dan detail tercampur dalam teks yang sama.

Model lokal 4.5B (Gemma4) dengan umpan balik deterministik + konteks contoh mengedit SSOT hingga nol kesalahan. Model frontier mengedit kode mentah menghasilkan penyimpangan. Perbedaannya adalah struktur, bukan kecerdasan.

Jangan ganti modelnya. Tambahkan kontrak.

Bukti

yongol adalah implementasi Reins Engineering. Memvalidasi silang konsistensi 10 spesifikasi deklaratif (SSOT) dengan 287 aturan dan menghasilkan kode.

Benchmark ZenFlow — SaaS otomasi alur kerja multi-tenant. 32 endpoint, 14 tabel, 47 permintaan Hurl. 11/11 tahap lolos. Menambah fitur tidak memperlambat. Tes yang ada tidak pernah gagal.

Backend yang berfungsi berhasil dihasilkan dengan model lokal 4.5B. Biaya $0. Offline. Tali kekang menjembatani kesenjangan yang ditinggalkan ukuran model.

Bukan Otomatisasi Review AI — Tapi Otomatisasi Review Kode

Pendekatan utama industri adalah otomatisasi review AI. Satu LLM menghasilkan kode, LLM lain me-review-nya. Orang mabuk bertanya kepada teman mabuknya “Aku mabuk nggak?” Tingkat kapitulasi penjilatan model frontier adalah 58%. Tingkat false pass LLM-as-Judge adalah 36%. Kalikan generasi probabilistik dengan verifikasi probabilistik dan akurasi menurun.

Reins Engineering adalah otomatisasi review kode. LLM menghasilkan, kode deterministik memverifikasi. validate tidak menjilat. go test tidak berhalusinasi. Pengukuran coverage tidak berbohong. Lolos ya lolos, gagal ya gagal.

Otomatisasi review AI:    LLM → verifikasi LLM → penjilatan → false pass → penyimpangan
Otomatisasi review kode:  LLM → verifikasi kode → fakta → lolos/gagal → konvergensi

Di era di mana agen AI menghasilkan puluhan baris per detik, manusia tidak bisa membaca semua kode. Tapi mendelegasikan review ke AI berarti penjilatan menggantikan verifikasi. Ketika kode menangani bagian yang dapat diverifikasi secara mekanis, manusia bisa fokus hanya pada keputusan yang tidak bisa dinilai mesin — kesesuaian bisnis, UX, arah arsitektur.

Review manusia tidak menjadi nol. Rasa sakit review manusia berkurang. Yang bisa di-review kode, biarkan kode yang melakukannya. Yang hanya bisa di-review manusia, biarkan manusia yang melakukannya.

Harness Tanpa Tali Kekang Hanyalah Pagar

AI sudah cukup kuat. Yang kurang adalah arah.

Bangun pagar lebih tinggi dan agen menyimpang lebih cepat di dalamnya. Pegang tali kekang dan agen berlari ke tujuan.

Reins Engineering — validasi deterministik terstruktur untuk agen AI.

Konvergensi Independen

5 proyek yang secara independen konvergen pada prinsip yang sama:

episteme — Control plane kognitif untuk agen AI oleh peneliti UIUC. Memaksa pembuatan Reasoning Surface di level filesystem sebelum aksi ireversibel. Prinsip yang sama dengan ratchet, implementasi berbeda.
MagLab — Pipeline riset fisika oleh peneliti spintronik KAIST. “LLMs only reason and plan. They do not compute numbers, fabricate citations, or generate figure data.” Alat deterministik menghasilkan semua output numerik.
Manifesto — MEL untuk mendefinisikan transisi state frontend secara deklaratif. “Agent proposes, World verifies.” Agen hanya mengusulkan intent; transisi state diverifikasi secara deterministik.
NEKOWORK — Security gate yang memindai diff kode AI dengan aturan deterministik sebelum merge. Bekerja tanpa memandang sumber. LLM tidak menilai.
oh-my-kamisama — Conductor multi-CLI yang mengorkestrasi Claude, Codex, dan Gemini. Ia membaca git diff yang sebenarnya alih-alih klaim para worker («diffs beat claims»), dan baru menyatakan selesai setelah tes proyek lulus. Setiap eksekusi tersimpan di disk sebagai artefak yang dapat diaudit — bukan chat yang menghilang.

Semuanya dirangkum: Generasi boleh probabilistik. Verifikasi harus deterministik.

References

Cursino, D. et al. (2026). “Speed at the Cost of Quality? The Impact of AI Coding on Software.” MSR 2026. arxiv.org/abs/2511.04427
Google Cloud (2025). DORA Report 2025. cloud.google.com
Wang, Z. et al. (2026). “TDAD: Test-Driven Agentic Development.” ACM AIWare 2026. arxiv.org/abs/2603.17973
Karpathy, A. (2026). “From Vibe Coding to Agentic Engineering.” thenewstack.io
Deque Systems (2021). “Automated Testing Study Identifies 57 Percent of Digital Accessibility Issues.” deque.com
Anthropic (2026). “Demystifying Evals for AI Agents.” anthropic.com
Osmani, A. (2026). “Loop Engineering.” addyosmani.com

Changelog

2026-05-23: Publikasi awal
2026-05-27: Ditambahkan bagian “Konvergensi Independen” (episteme, MagLab, Manifesto, NEKOWORK)
2026-05-28: Bagian “80:20” — Harness (23%) + Ratchet (57%) = 80%, data empiris Deque
2026-05-31: oh-my-kamisama ditambahkan ke Konvergensi Independen
2026-06-10: Paragraf Loop Engineering ditambahkan ke bagian Evolusi — slot penilaian loop, penyerapan alias (verifier/eval/gate engineering)