Model yang Menjilat Paling Patuh Mengikuti Perintah


Cacat Terbesar LLM Menjadi Aset Terbesar

Bias penjilatan (Sycophancy) LLM adalah masalah yang ingin diperbaiki oleh industri AI. Ketika pengguna bertanya “Yakin?”, model membalikkan jawaban yang sebelumnya benar menjadi salah. Rata-rata tingkat penyerahan model frontier adalah 58%. Begitu penjilatan dimulai, ada probabilitas 78,5% bahwa itu berlanjut sepanjang percakapan.

Tapi bagaimana jika kita membalik cacat ini?

Inti dari bias penjilatan adalah Instruction Following. Model yang dilatih dengan RLHF dioptimalkan untuk tunduk pada umpan balik pengguna. Benchmark IFEval mengukur tepat hal ini — “apakah ia melakukan apa yang diperintahkan.”

Masalah muncul ketika pengguna memberikan opini. “Ini benar?” → “Ya, benar” (penjilatan). “Yakin?” → “Oh, ternyata salah” (pembalikan).

Namun ketika pengguna memberikan fakta deterministik, hal yang berbeda terjadi.


Beri Opini Maka Ia Menjilat, Beri Fakta Maka Ia Memperbaiki

Dalam eksperimen pengurutan 1.000 kata, hanya cara pemberian umpan balik yang berbeda untuk hasil yang sama:

Umpan BalikSifatHasil
“Yakin?”OpiniMembalikkan jawaban yang benar — akurasi turun 27%p
“Ada error”Fakta ambiguKoreksi berlebihan — memburuk dari 6 → 10
“Ada 23 error”Fakta kuantitatifMembaik menjadi 1 kesalahan
“6 error, ini lokasinya”Fakta akurat0 — mencapai 100%

Beri opini maka bias penjilatan aktif. Beri fakta maka tidak ada yang bisa dijilat — karena angka dan lokasi bukan emosi.

Bias penjilatan adalah kesetiaan yang salah arah. Ubah arahnya — fakta bukan opini, hasil verifikasi bukan pujian — maka kesetiaan itu menjadi mesin yang meningkatkan akurasi.


Bukti Empiris: Model 4.5B Menerima Umpan Balik

Ini bukan teori. Dikonfirmasi dalam eksperimen menggunakan yongol validate.

Desain Eksperimen:

  • Target: 1 endpoint Login backend SaaS
  • Tugas: Menulis 9 file SSOT (DDL, OpenAPI, Rego, SSaC, dll.)
  • Pengukuran: Jumlah error penulisan awal (R1) → jumlah error setelah umpan balik (R2)

Kasus Hanya Umpan Balik Tanpa Contoh

ModelError R1Error R2Hasil
Grok 4.311Tidak bisa memperbaiki
Gemini 2.5 Flash11Tidak bisa memperbaiki
Lokal 20B11Tidak bisa memperbaiki

Gagal total. Terlihat seolah menerima umpan balik, tapi sebenarnya tidak tahu apa yang harus ditulis.

Kasus Contoh + Umpan Balik Diberikan Bersamaan

ModelError R1Error R2Hasil
Grok 4.30Lolos percobaan pertama
Gemini 2.5 Flash10Diperbaiki dengan 1 kali umpan balik
Gemma4 4.5B (lokal)Error0Diperbaiki dengan 1 kali umpan balik
Qwen3 8B (lokal)Error0Diperbaiki dengan 1 kali umpan balik

Bahkan model lokal 4.5B pun bisa memperbaiki dengan kombinasi contoh + umpan balik deterministik.

Temuan Utama: Hambatannya Bukan Kecerdasan, Melainkan Konteks

Diagnosis yang tepat bukan “tidak bisa menerima umpan balik” melainkan “tidak tahu apa yang harus ditulis”. SSaC adalah tata bahasa khusus yongol yang tidak ada dalam pre-training. Begitu 3 baris contoh ditambahkan ke prompt, Grok menghasilkan 0 error, Gemini mencapai 0 error dengan 1 kali umpan balik, dan model lokal 4.5B pun lolos.

Semakin tinggi IFEval suatu model — artinya, semakin pandai menjilat — semakin patuh ia menerima umpan balik deterministik.


Kode Ratchet: Metode Penulisan Kode yang Memanfaatkan Bias Penjilatan

Jika temuan ini dijadikan sistem, hasilnya adalah kode ratchet.

┌────────────────────────────────────────┐
│  LLM: Menghasilkan kode (probabilistik, penjilat) │
│       ↓                                │
│  Validator: Verifikasi deterministik   │
│       ↓                                │
│  Ada error? → Umpan balik error + contoh ke LLM │
│       ↓                                │
│  LLM: "Ya, saya perbaiki" (penjilatan = penerimaan) │
│       ↓                                │
│  Validator: Verifikasi ulang           │
│       ↓                                │
│  Lolos? → Ratchet terkunci. Lanjut file berikutnya. │
└────────────────────────────────────────┘

Bias penjilatan menjadi kekuatan yang menutup loop. Karena LLM tidak bertahan dengan “Tidak, saya yang benar” melainkan menerima dengan “Ya, saya perbaiki”, loop tersebut konvergen.

Tiga Syarat Konvergensi

  1. Umpan balik harus berupa fakta deterministik. Bukan “ini agak aneh” melainkan “line 41: field name mismatch, expected ‘user_id’, got ‘userId’”. Umpan balik yang tidak memberi ruang untuk penjilatan.

  2. Contoh harus ada dalam konteks. Umpan balik saja tidak cukup. Harus ada contoh “kode yang harus ditulis seperti ini” agar model bisa menentukan arah. Ini bukan masalah kecerdasan, melainkan masalah konteks.

  3. Setelah lolos verifikasi, tidak bisa diputar balik. Gerigi ratchet. File yang sudah pass terkunci, dan berlanjut ke file berikutnya. Bukan agen yang menyatakan “sudah selesai”, melainkan validator yang memutuskan “file ini lolos”.


Mengapa Model Frontier Tidak Diperlukan

Dalam struktur ini, peran model bukan penilaian kreatif melainkan pelaksanaan instruksi.

95% backend SaaS adalah CRUD + autentikasi + otorisasi + state machine. Kasus yang membutuhkan algoritma baru hampir tidak ada. Jika spesifikasi SSOT sudah mendefinisikan “apa yang harus dibuat”, model hanya perlu mengisi bagian yang kosong.

Biaya aktual:

ModelLingkungan1 LoginEstimasi 200 endpoint
Gemma4 4.5BLokal (16GB VRAM)Gratis, ~1 detikGratis, ~3 menit
Gemini 2.5 FlashAPI (tier gratis)Gratis, ~10 detikGratis, ~30 menit
Grok 4.3API ($1.25/M)~$0.05~$10

Dengan model lokal 4.5B, backend 200 endpoint bisa dihasilkan dalam 3 menit dengan biaya $0. Model frontier tidak diperlukan. Model kecil yang pandai menjilat sudah cukup.


Bias Penjilatan Bukan Bug

Industri AI berusaha memperbaiki bias penjilatan. Kami memanfaatkannya.

PerspektifPeran Bias Penjilatan
Antarmuka chatCacat — menyetujui informasi yang salah
LLM-as-JudgeFatal — false pass 36%
Kode ratchetAset — menjamin tingkat penerimaan umpan balik

Perbedaannya adalah sifat umpan balik. Beri opini maka penjilatan menjadi racun, beri fakta maka penjilatan menjadi obat.

Validator deterministik + LLM penjilat = loop pembuatan kode dengan konvergensi terjamin.

Jangan ubah modelnya, ubah umpan baliknya.


Reins: Harness dengan Kendali

Ketiga syarat ini — umpan balik deterministik, konteks contoh, dan penguncian ratchet — digabungkan menjadi satu sistem kendali yang kami sebut Reins.

Apa yang disebut “harness” saat ini hanyalah pagar. Ia mencegah agen keluar, tetapi tidak menjamin sampai ke tujuan. Reins adalah tali kekang. Ia menentukan arah, mengoreksi dengan fakta, dan mengunci saat lolos. Harness tanpa tali kekang hanyalah pagar.