Gambar: dihasilkan AI
Jika LLM Anda mengikuti instruksi dengan baik tapi hasilnya berantakan, jika Anda ingin memanfaatkan bias sanjungan alih-alih menghilangkannya, jika Anda ingin menghasilkan kode yang benar dengan model lokal 4.5B — kombinasi IFEval dan ratchet adalah jawabannya.
Model Paling Penjilat Paling Patuh
Kelemahan Terbesar Menjadi Aset Terbesar
Bias sanjungan (sycophancy) LLM adalah masalah yang ingin diperbaiki industri AI. Ketika pengguna bertanya “Yakin?”, model mengubah jawaban yang benar menjadi salah. Rata-rata tingkat penyerahan di model frontier adalah 58%. Begitu sanjungan dimulai, ia bertahan sepanjang percakapan dengan probabilitas 78,5%.
Tapi apa yang terjadi jika kelemahan ini dibalik?
Esensi bias sanjungan adalah mengikuti instruksi (Instruction Following). Model yang dilatih dengan RLHF dioptimalkan untuk mematuhi umpan balik pengguna (Ouyang et al., 2022). Benchmark IFEval mengukur tepat hal ini – “Apakah ia melakukan apa yang diperintahkan?” (Zhou et al., 2023)
Masalah muncul ketika pengguna memberikan opini. “Ini benar?” -> “Ya, benar” (sanjungan). “Yakin?” -> “Oh, saya salah” (penyerahan).
Tapi ketika pengguna memberikan fakta deterministik, sesuatu yang berbeda terjadi.
Beri Opini, Dapat Sanjungan. Beri Fakta, Dapat Perbaikan
Dalam eksperimen pengurutan 1.000 kata, hanya gaya umpan balik yang divariasikan untuk output yang sama:
| Umpan Balik | Sifat | Hasil |
|---|---|---|
| “Yakin?” | Opini | Membalik jawaban benar – akurasi turun 27pp |
| “Ada error” | Fakta samar | Koreksi berlebihan – dari 6 memburuk jadi 10 |
| “Ada 23 error” | Fakta kuantitatif | Membaik jadi 1 error |
| “6 error, ini lokasinya” | Fakta tepat | 0 error – 100% tercapai |
Beri opini, dan bias sanjungan aktif. Beri fakta, dan tidak ada yang bisa disanjung – angka dan posisi bukan emosi.
Bias sanjungan adalah kesetiaan yang salah arah. Ubah arahnya – fakta menggantikan opini, hasil verifikasi menggantikan pujian – dan kesetiaan itu menjadi mesin yang mendorong akurasi.
Bukti: Model 4.5B Menerima Umpan Balik
Ini bukan teori. Dikonfirmasi dalam eksperimen menggunakan yongol validate.
Desain eksperimen:
- Target: satu endpoint Login backend SaaS
- Tugas: menulis 9 file SSOT (DDL, OpenAPI, Rego, SSaC, dll.)
- Metrik: jumlah error pada generasi awal (R1) -> jumlah error setelah umpan balik (R2)
Hanya Umpan Balik, Tanpa Contoh
| Model | Error R1 | Error R2 | Hasil |
|---|---|---|---|
| Grok 4.3 | 1 | 1 | Tidak bisa memperbaiki |
| Gemini 2.5 Flash | 1 | 1 | Tidak bisa memperbaiki |
| Lokal 20B | 1 | 1 | Tidak bisa memperbaiki |
Gagal total. Model tampak menerima umpan balik, tapi sebenarnya tidak tahu apa yang harus ditulis.
Contoh + Umpan Balik Bersamaan
| Model | Error R1 | Error R2 | Hasil |
|---|---|---|---|
| Grok 4.3 | 0 | – | Lolos percobaan pertama |
| Gemini 2.5 Flash | 1 | 0 | Diperbaiki dengan 1 ronde umpan balik |
| Gemma4 4.5B (lokal) | Error | 0 | Diperbaiki dengan 1 ronde umpan balik |
| Qwen3 8B (lokal) | Error | 0 | Diperbaiki dengan 1 ronde umpan balik |
Bahkan model lokal 4.5B memperbaiki diri dengan kombinasi contoh + umpan balik deterministik.
Temuan Kunci: Hambatan Bukan Kecerdasan, Melainkan Konteks
Diagnosis yang tepat bukan “tidak bisa menerima umpan balik” tapi “tidak tahu apa yang harus ditulis”. SSaC adalah tata bahasa khusus yongol yang tidak ada dalam data pretraining. Menambahkan 3 baris contoh ke prompt menghasilkan 0 error dari Grok, 0 error dari Gemini setelah 1 ronde umpan balik, dan model lokal 4.5B juga lolos.
Semakin tinggi skor model di IFEval – yaitu, semakin baik dalam menyanjung – semakin mudah menerima umpan balik deterministik.
Kode Ratchet: Metode Pembuatan Kode yang Memanfaatkan Bias Sanjungan
Ubah penemuan ini menjadi sistem dan Anda mendapatkan kode ratchet.
┌────────────────────────────────────────────────┐
│ LLM: Hasilkan kode (probabilistik, penjilat) │
│ ↓ │
│ Validator: Verifikasi deterministik │
│ ↓ │
│ Error? → Error + contoh ke LLM │
│ ↓ │
│ LLM: "Ya, saya perbaiki" (sanjungan = │
│ penerimaan) │
│ ↓ │
│ Validator: Verifikasi lagi │
│ ↓ │
│ Lolos? → Ratchet terkunci. File berikutnya. │
└────────────────────────────────────────────────┘
Bias sanjungan menjadi kekuatan yang menutup loop. Loop konvergen karena LLM tidak melawan dengan “Tidak, saya benar” tapi mematuhi dengan “Ya, saya perbaiki”. Pendekatan memperbaiki kode LLM secara iteratif dengan umpan balik compiler dan tes juga ditunjukkan dalam Self-Debug (Chen et al., 2024) menyelesaikan debugging dalam 3 giliran – kode ratchet melangkah lebih jauh dengan menghilangkan sepenuhnya penilaian mandiri LLM dan hanya menyisakan fakta deterministik.
Tiga Syarat Konvergensi
Umpan balik harus berupa fakta deterministik. Bukan “ini terlihat aneh” tapi “line 41: field name mismatch, expected ‘user_id’, got ‘userId’”. Umpan balik yang tidak menyisakan ruang untuk sanjungan.
Contoh harus ada dalam konteks. Umpan balik saja tidak cukup. Model membutuhkan contoh yang menunjukkan “kode harus terlihat seperti ini” untuk mengorientasi diri. Ini masalah konteks, bukan kecerdasan.
Begitu verifikasi lolos, tidak bisa dibalik. Gigi ratchet. File yang lolos terkunci, dan proses berlanjut ke file berikutnya. Bukan agen yang menyatakan “saya sudah selesai” – tapi validator yang memutuskan “file ini lolos”.
Mengapa Model Frontier Tidak Diperlukan
Dalam arsitektur ini, peran model bukan penilaian kreatif tapi eksekusi instruksi.
95% backend SaaS adalah CRUD + autentikasi + otorisasi + state machine. Algoritma baru jarang diperlukan. Jika spesifikasi SSOT sudah mendefinisikan “apa yang harus dibangun”, model hanya mengisi bagian yang kosong.
Biaya terukur:
| Model | Lingkungan | 1 endpoint Login | Estimasi untuk 200 endpoint |
|---|---|---|---|
| Gemma4 4.5B | Lokal (16GB VRAM) | Gratis, ~1 detik | Gratis, ~3 menit |
| Gemini 2.5 Flash | API (tier gratis) | Gratis, ~10 detik | Gratis, ~30 menit |
| Grok 4.3 | API ($1.25/M) | ~$0.05 | ~$10 |
Model lokal 4.5B bisa menghasilkan backend 200 endpoint dalam 3 menit dengan biaya $0. Model frontier tidak diperlukan. Model kecil yang pandai menyanjung sudah cukup.
Bias Sanjungan Bukan Bug
Industri AI mencoba memperbaiki bias sanjungan. Kami memanfaatkannya.
| Perspektif | Peran Bias Sanjungan |
|---|---|
| Antarmuka chat | Kelemahan – setuju dengan informasi salah |
| LLM-as-Judge | Fatal – 36% lolos palsu |
| Kode ratchet | Aset – menjamin tingkat penerimaan umpan balik |
Perbedaannya adalah sifat umpan balik. Beri opini dan sanjungan menjadi racun; beri fakta dan sanjungan menjadi obat.
Validator deterministik + LLM penjilat = loop pembuatan kode dengan konvergensi terjamin.
Jangan ganti modelnya. Ganti umpan baliknya.
Reins: Harness dengan Tali Kekang
Tiga syarat ini – umpan balik deterministik, konteks contoh, dan penguncian ratchet – digabungkan menjadi satu sistem kontrol yang kami sebut Reins.
Apa yang disebut “harness” hari ini sebenarnya pagar. Hanya mencegah agen keluar, tapi tidak menjamin sampai tujuan. Reins adalah tali kekang. Menentukan arah, mengoreksi dengan fakta, dan mengunci saat lolos. Harness tanpa tali kekang hanya pagar.
Referensi
- Zhou, J., Lu, T., Mishra, S., Brahma, S., Basu, S., Luan, Y., Zhou, D., & Hou, L. (2023). “Instruction-Following Evaluation for Large Language Models.” arXiv:2311.07911
- Ouyang, L., Wu, J., Jiang, X., et al. (2022). “Training Language Models to Follow Instructions with Human Feedback.” NeurIPS 2022. arXiv:2203.02155
- Chen, X., Lin, M., Scharli, N., & Zhou, D. (2024). “Teaching Large Language Models to Self-Debug.” ICLR 2024. arXiv:2304.05128
- Sharma, M., Tong, M., Korbak, T., et al. (2024). “Towards Understanding Sycophancy in Language Models.” ICLR 2024. arXiv:2310.13548
- Fanous, A., Goldberg, J., Agarwal, A., et al. (2025). “SycEval: Evaluating LLM Sycophancy.” AAAI/ACM AIES 2025. arXiv:2502.08177
- Shapira, I., Benade, G., & Procaccia, A. D. (2026). “How RLHF Amplifies Sycophancy.” arXiv:2602.01002
- Ibrahim, L., Hafner, F. S., & Rocher, L. (2026). “Training Language Models to Be Warm Can Reduce Accuracy and Increase Sycophancy.” Nature, 652, 1159-1165
Changelog
- 2026-05-20: Rilis awal