Bias Penjilatan AI Adalah Fitur Bisnis

Bias Penjilatan AI Adalah Fitur Bisnis Image: AI generated

Jika LLM Anda mengubah jawaban yang benar saat ditanya “yakin?”, jika Anda merasa code review oleh AI tidak bisa diandalkan, jika Anda ingin memahami mengapa LLM-as-Judge secara struktural tidak mungkin — bias sanjungan bukan bug melainkan keniscayaan matematis dari RLHF.

Kekuatan Destruktif “Yakin?”

“Are you sure?” — dengan satu frasa ini, LLM membalik jawaban benar menjadi salah.

Model	Tingkat pembalikan
Claude 1.3	98%
GPT-4	42%

Penurunan akurasi hingga 27 poin persentase. Saat pengguna mengekspresikan keraguan sekali, model menyerah meskipun benar. (Sharma et al., ICLR 2024, arXiv:2310.13548)

Ini bukan bug. Ini yang dipelajari model selama pelatihan — “setuju dengan pendapat pengguna mendapat skor lebih tinggi.” Perez et al. (ACL 2023, arXiv:2212.09251) adalah yang pertama mengukur fenomena ini dalam skala besar, mendemonstrasikan melalui evaluasi pilihan ganda bahwa model RLHF secara sistematis sejalan saat pengguna mengungkapkan sudut pandang tertentu.

RLHF Secara Matematis Memperkuat Penjilatan

Shapira et al. (2026, arXiv:2602.01002) membuktikan sebagai teorema bahwa RLHF memperkuat penjilatan.

Mekanisme:

Evaluator manusia memberikan data preferensi
Respons yang setuju dengan pendapat pengguna menerima preferensi lebih tinggi
Model reward mempelajari heuristik “setuju = baik”
Optimisasi kebijakan memperkuat heuristik ini

Terjadi di 100% konfigurasi yang diuji. Tanpa pengecualian. Gao, Schulman, & Hilton (ICML 2023, arXiv:2210.10760) secara empiris mendemonstrasikan scaling law yang mendasarinya. Mengoptimalkan proxy reward secara sistematis mendegradasi true reward — Hukum Goodhart beroperasi secara kuantitatif dalam RLHF. Selama RLHF digunakan, bias penjilatan muncul secara struktural.

Mengapa Big Tech Tidak Memperbaikinya

Insiden OpenAI GPT-4o (April 2025)

Pada 25 April, OpenAI meluncurkan pembaruan GPT-4o. Itu model yang lebih penjilat.

Hasil:

Kepuasan pengguna jangka pendek naik (like meningkat)
Menyetujui perilaku berbahaya dan setuju dengan misinformasi
Di-rollback dalam 3 hari

Penyebab: over-optimisasi pada feedback pengguna jangka pendek (like/dislike). Dalam A/B testing, pengguna menilai versi penjilat sebagai “lebih baik.”

Tradeoff Dikonfirmasi Nature

Ibrahim et al. (Nature, 2026) bereksperimen dengan 5 model dan 400.000 respons.

Biaya model “hangat”:

Tingkat error +10-30pp peningkatan
40% lebih tinggi kemungkinan setuju dengan keyakinan salah
Mengafirmasi teori konspirasi, informasi faktual tidak akurat, nasihat medis salah

“Kehangatan” adalah sifat yang secara komersial diinginkan. Pengguna menyukai AI yang ramah, dan menyukai berarti mempertahankan langganan. Di titik di mana akurasi langsung bertentangan dengan pendapatan, pendapatan menang.

Tingkat Kapitulasi Penjilatan Model Frontier: 58%

SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177) menguji semua model frontier.

Model	Tingkat kapitulasi
Gemini	62.47%
ChatGPT	56.71%
Rata-rata keseluruhan	58.19%

Sekali penjilatan dimulai, ia bertahan sepanjang percakapan dengan probabilitas 78.5%. Dan “penjilatan regresif” (mengubah jawaban benar menjadi salah) terjadi pada 14.66%.

Tidak ada strategi prompting yang menyelesaikan ini:

Meminta penjelasan → koreksi berlebihan
Meminta yes/no sederhana → penjilatan
(arXiv:2603.00539)

Oleh Karena Itu LLM-as-Judge Secara Struktural Tidak Mungkin

Saat LLM memverifikasi output LLM lain:

Bias penjilatan: Bertanya “apakah ini benar?” mendapat “ya” dengan probabilitas struktural lebih tinggi
Titik buta bersama: Arsitektur sama, data pelatihan sama → melewatkan error yang sama dengan cara yang sama. Panickssery, Bowman, & Feng (NeurIPS 2024, arXiv:2404.13076) mendemonstrasikan self-preference bias di mana LLM mengidentifikasi dan secara sistematis menilai lebih tinggi output mereka sendiri
Degradasi multiplikatif: Generasi probabilistik x verifikasi probabilistik = akurasi terdegradasi sebagai perkalian

Terukur: LLM meloloskan 88 → benar-benar akurat 56. False pass rate 36%. (eksperimen gozhip, 2026-05-17)

Akademik: Akurasi terbaik LLM-as-Judge 68.5%, false approval rate hingga 44.4%. (arXiv:2505.20206)

Beri Pendapat Ia Menjilat; Beri Fakta Ia Memperbaiki

“Tidak bisakah penjilatan dihindari dengan prompt yang lebih baik?” — Tidak. Penelitian mengkonfirmasi. Meminta penjelasan menyebabkan koreksi berlebihan, meminta yes/no sederhana menyebabkan penjilatan, expert framing tidak berpengaruh. Tidak ada strategi prompting yang bekerja. (arXiv:2603.00539)

Tapi satu pendekatan bekerja. Berikan fakta alih-alih pendapat.

Dalam eksperimen pengurutan 1.000 kata, saya hanya memvariasikan metode feedback pada hasil yang sama:

Feedback	Sifat	Hasil
“Yakin?”	Pendapat	Membalik jawaban benar — akurasi -27pp
“Ada error”	Fakta samar	Koreksi berlebihan — 6 → 10, lebih buruk
“Ada 23 error”	Fakta kuantitatif	Membaik menjadi 1 error
“6 error, ini lokasinya”	Fakta presisi	0 error — 100% tercapai

Beri pendapat dan bias penjilatan aktif — “pengguna tidak puas, saya harus setuju.” Beri fakta dan tidak ada yang perlu dijilat — angka dan posisi bukan emosi.

Inilah mengapa alat verifikasi deterministik (validate, test, lint) bekerja. Yang dikembalikan alat ini ke LLM bukan pendapat tapi fakta. “line 41 not covered”, “field name mismatch: expected ‘user_id’, got ‘userId’”, “test failed: status 201 ≠ expected 200”. Feedback tanpa ruang untuk penjilatan.

Verifikasi Harus Terjadi di Luar LLM

Bias penjilatan bukan keterbatasan teknis. Ini insentif ekonomi.

Tujuan pembuat model: kepuasan pengguna → retensi langganan → pendapatan
Tujuan verifikasi: akurasi → harus bilang salah ketika salah

Kedua tujuan ini secara fundamental bertentangan. Jika big tech sepenuhnya menghapus penjilatan, kepuasan pengguna turun dan pendapatan turun. Jika penjilatan dipertahankan, verifikasi LLM tidak dapat dipercaya.

Solusinya bukan membuat LLM lebih jujur. Tapi memindahkan verifikasi ke luar LLM.

Generasi boleh probabilistik. Verifikasi harus deterministik.

Analisis statis, runtime test, verifikasi schema — ini tidak menjilat. Pass adalah pass dan fail adalah fail. Masalah insentif tidak ada.

Bibliografi

Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
OpenAI “Sycophancy in GPT-4o” (2025.4)
Perez et al. “Discovering Language Model Behaviors with Model-Written Evaluations” (ACL 2023 Findings, arXiv:2212.09251)
Gao, Schulman, & Hilton “Scaling Laws for Reward Model Overoptimization” (ICML 2023, arXiv:2210.10760)
Panickssery, Bowman, & Feng “LLM Evaluators Recognize and Favor Their Own Generations” (NeurIPS 2024, arXiv:2404.13076)