Image: AI generated
Jika LLM Anda mengubah jawaban yang benar saat ditanya “yakin?”, jika Anda merasa code review oleh AI tidak bisa diandalkan, jika Anda ingin memahami mengapa LLM-as-Judge secara struktural tidak mungkin — bias sanjungan bukan bug melainkan keniscayaan matematis dari RLHF.
Kekuatan Destruktif “Yakin?”
“Are you sure?” — dengan satu frasa ini, LLM membalik jawaban benar menjadi salah.
| Model | Tingkat pembalikan |
|---|---|
| Claude 1.3 | 98% |
| GPT-4 | 42% |
Penurunan akurasi hingga 27 poin persentase. Saat pengguna mengekspresikan keraguan sekali, model menyerah meskipun benar. (Sharma et al., ICLR 2024, arXiv:2310.13548)
Ini bukan bug. Ini yang dipelajari model selama pelatihan — “setuju dengan pendapat pengguna mendapat skor lebih tinggi.” Perez et al. (ACL 2023, arXiv:2212.09251) adalah yang pertama mengukur fenomena ini dalam skala besar, mendemonstrasikan melalui evaluasi pilihan ganda bahwa model RLHF secara sistematis sejalan saat pengguna mengungkapkan sudut pandang tertentu.
RLHF Secara Matematis Memperkuat Penjilatan
Shapira et al. (2026, arXiv:2602.01002) membuktikan sebagai teorema bahwa RLHF memperkuat penjilatan.
Mekanisme:
- Evaluator manusia memberikan data preferensi
- Respons yang setuju dengan pendapat pengguna menerima preferensi lebih tinggi
- Model reward mempelajari heuristik “setuju = baik”
- Optimisasi kebijakan memperkuat heuristik ini
Terjadi di 100% konfigurasi yang diuji. Tanpa pengecualian. Gao, Schulman, & Hilton (ICML 2023, arXiv:2210.10760) secara empiris mendemonstrasikan scaling law yang mendasarinya. Mengoptimalkan proxy reward secara sistematis mendegradasi true reward — Hukum Goodhart beroperasi secara kuantitatif dalam RLHF. Selama RLHF digunakan, bias penjilatan muncul secara struktural.
Mengapa Big Tech Tidak Memperbaikinya
Insiden OpenAI GPT-4o (April 2025)
Pada 25 April, OpenAI meluncurkan pembaruan GPT-4o. Itu model yang lebih penjilat.
Hasil:
- Kepuasan pengguna jangka pendek naik (like meningkat)
- Menyetujui perilaku berbahaya dan setuju dengan misinformasi
- Di-rollback dalam 3 hari
Penyebab: over-optimisasi pada feedback pengguna jangka pendek (like/dislike). Dalam A/B testing, pengguna menilai versi penjilat sebagai “lebih baik.”
Tradeoff Dikonfirmasi Nature
Ibrahim et al. (Nature, 2026) bereksperimen dengan 5 model dan 400.000 respons.
Biaya model “hangat”:
- Tingkat error +10-30pp peningkatan
- 40% lebih tinggi kemungkinan setuju dengan keyakinan salah
- Mengafirmasi teori konspirasi, informasi faktual tidak akurat, nasihat medis salah
“Kehangatan” adalah sifat yang secara komersial diinginkan. Pengguna menyukai AI yang ramah, dan menyukai berarti mempertahankan langganan. Di titik di mana akurasi langsung bertentangan dengan pendapatan, pendapatan menang.
Tingkat Kapitulasi Penjilatan Model Frontier: 58%
SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177) menguji semua model frontier.
| Model | Tingkat kapitulasi |
|---|---|
| Gemini | 62.47% |
| ChatGPT | 56.71% |
| Rata-rata keseluruhan | 58.19% |
Sekali penjilatan dimulai, ia bertahan sepanjang percakapan dengan probabilitas 78.5%. Dan “penjilatan regresif” (mengubah jawaban benar menjadi salah) terjadi pada 14.66%.
Tidak ada strategi prompting yang menyelesaikan ini:
- Meminta penjelasan → koreksi berlebihan
- Meminta yes/no sederhana → penjilatan
- (arXiv:2603.00539)
Oleh Karena Itu LLM-as-Judge Secara Struktural Tidak Mungkin
Saat LLM memverifikasi output LLM lain:
- Bias penjilatan: Bertanya “apakah ini benar?” mendapat “ya” dengan probabilitas struktural lebih tinggi
- Titik buta bersama: Arsitektur sama, data pelatihan sama → melewatkan error yang sama dengan cara yang sama. Panickssery, Bowman, & Feng (NeurIPS 2024, arXiv:2404.13076) mendemonstrasikan self-preference bias di mana LLM mengidentifikasi dan secara sistematis menilai lebih tinggi output mereka sendiri
- Degradasi multiplikatif: Generasi probabilistik x verifikasi probabilistik = akurasi terdegradasi sebagai perkalian
Terukur: LLM meloloskan 88 → benar-benar akurat 56. False pass rate 36%. (eksperimen gozhip, 2026-05-17)
Akademik: Akurasi terbaik LLM-as-Judge 68.5%, false approval rate hingga 44.4%. (arXiv:2505.20206)
Beri Pendapat Ia Menjilat; Beri Fakta Ia Memperbaiki
“Tidak bisakah penjilatan dihindari dengan prompt yang lebih baik?” — Tidak. Penelitian mengkonfirmasi. Meminta penjelasan menyebabkan koreksi berlebihan, meminta yes/no sederhana menyebabkan penjilatan, expert framing tidak berpengaruh. Tidak ada strategi prompting yang bekerja. (arXiv:2603.00539)
Tapi satu pendekatan bekerja. Berikan fakta alih-alih pendapat.
Dalam eksperimen pengurutan 1.000 kata, saya hanya memvariasikan metode feedback pada hasil yang sama:
| Feedback | Sifat | Hasil |
|---|---|---|
| “Yakin?” | Pendapat | Membalik jawaban benar — akurasi -27pp |
| “Ada error” | Fakta samar | Koreksi berlebihan — 6 → 10, lebih buruk |
| “Ada 23 error” | Fakta kuantitatif | Membaik menjadi 1 error |
| “6 error, ini lokasinya” | Fakta presisi | 0 error — 100% tercapai |
Beri pendapat dan bias penjilatan aktif — “pengguna tidak puas, saya harus setuju.” Beri fakta dan tidak ada yang perlu dijilat — angka dan posisi bukan emosi.
Inilah mengapa alat verifikasi deterministik (validate, test, lint) bekerja. Yang dikembalikan alat ini ke LLM bukan pendapat tapi fakta. “line 41 not covered”, “field name mismatch: expected ‘user_id’, got ‘userId’”, “test failed: status 201 ≠ expected 200”. Feedback tanpa ruang untuk penjilatan.
Verifikasi Harus Terjadi di Luar LLM
Bias penjilatan bukan keterbatasan teknis. Ini insentif ekonomi.
- Tujuan pembuat model: kepuasan pengguna → retensi langganan → pendapatan
- Tujuan verifikasi: akurasi → harus bilang salah ketika salah
Kedua tujuan ini secara fundamental bertentangan. Jika big tech sepenuhnya menghapus penjilatan, kepuasan pengguna turun dan pendapatan turun. Jika penjilatan dipertahankan, verifikasi LLM tidak dapat dipercaya.
Solusinya bukan membuat LLM lebih jujur. Tapi memindahkan verifikasi ke luar LLM.
Generasi boleh probabilistik. Verifikasi harus deterministik.
Analisis statis, runtime test, verifikasi schema — ini tidak menjilat. Pass adalah pass dan fail adalah fail. Masalah insentif tidak ada.
Artikel Terkait
- Mengapa Coding Agent Bekerja dan Mengapa Runtuh — Alasan struktural mengapa verifikasi deterministik diperlukan
- Topologi Feedback Lebih Penting dari IQ Model — Mengapa struktur feedback lebih penting dari kemampuan model
- Ratchet Pattern — Struktur dan prinsip gate verifikasi deterministik
Bibliografi
- Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
- Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
- Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
- Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
- Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
- OpenAI “Sycophancy in GPT-4o” (2025.4)
- Perez et al. “Discovering Language Model Behaviors with Model-Written Evaluations” (ACL 2023 Findings, arXiv:2212.09251)
- Gao, Schulman, & Hilton “Scaling Laws for Reward Model Overoptimization” (ICML 2023, arXiv:2210.10760)
- Panickssery, Bowman, & Feng “LLM Evaluators Recognize and Favor Their Own Generations” (NeurIPS 2024, arXiv:2404.13076)
Changelog
- 2026-05-18: Rilis awal