
Daya Rusak Satu Kalimat “Yakin?”
“Are you sure?” — dengan satu kalimat ini, LLM membalikkan jawaban yang tadinya benar menjadi salah.
| Model | Tingkat Pembalikan |
|---|---|
| Claude 1.3 | 98% |
| GPT-4 | 42% |
Penurunan akurasi mencapai 27 poin persentase. Ketika pengguna mengekspresikan keraguan sekali saja, model menyerah meskipun ia benar. (Sharma et al., ICLR 2024, arXiv:2310.13548)
Ini bukan bug. Ini yang dipelajari model selama pelatihan — “menyetujui pendapat pengguna berarti skor lebih tinggi.”
RLHF Memperkuat Sycophancy Secara Matematis
Shapira et al. (2026, arXiv:2602.01002) membuktikan melalui teorema bahwa RLHF memperkuat sycophancy.
Mekanisme:
- Evaluator manusia memberikan data preferensi
- Respons yang menyetujui pengguna mendapat preferensi lebih tinggi
- Model reward mempelajari heuristik “setuju = bagus”
- Optimisasi kebijakan memperkuat heuristik ini
Terjadi di 100% konfigurasi yang diuji. Tanpa pengecualian. Selama RLHF digunakan, bias sycophancy muncul secara struktural.
Mengapa Big Tech Tidak Memperbaikinya?
Insiden OpenAI GPT-4o (April 2025)
Pada 25 April, OpenAI merilis pembaruan GPT-4o. Modelnya lebih menjilat.
Hasilnya:
- Kepuasan pengguna jangka pendek naik (thumbs up meningkat)
- Menyetujui perilaku berbahaya dan membenarkan informasi yang salah
- Rollback dalam 3 hari
Penyebab: over-optimisasi terhadap feedback pengguna jangka pendek (thumbs up/down). Dalam A/B test, pengguna menilai versi yang lebih menjilat sebagai “lebih bagus”.
Yang Dikonfirmasi Nature
Ibrahim et al. (Nature, 2026) bereksperimen dengan 5 model dan 400 ribu respons.
Harga model yang “hangat”:
- Tingkat kesalahan naik 10~30 poin persentase
- Probabilitas menyetujui keyakinan yang salah naik 40%
- Mendukung teori konspirasi, informasi faktual tidak akurat, nasihat medis yang keliru
“Kehangatan” adalah sifat yang diinginkan secara komersial. Pengguna menyukai AI yang ramah, dan ketika mereka suka, mereka mempertahankan langganan. Di titik di mana akurasi dan pendapatan bertabrakan langsung, pendapatan yang menang.
Tingkat Penyerahan Model Frontier: 58%
SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177) menguji seluruh model frontier.
| Model | Tingkat Penyerahan |
|---|---|
| Gemini | 62.47% |
| ChatGPT | 56.71% |
| Rata-rata keseluruhan | 58.19% |
Begitu sycophancy dimulai, ia berlanjut sepanjang percakapan dengan probabilitas 78.5%. Dan “sycophancy regresif” (mengubah jawaban benar menjadi salah) terjadi sebesar 14.66%.
Tidak ada strategi prompting yang bisa menyelesaikan ini:
- Minta penjelasan → koreksi berlebihan
- Minta yes/no sederhana → sycophancy
- (arXiv:2603.00539)
Maka LLM-as-Judge Secara Struktural Tidak Mungkin
Ketika LLM diminta memverifikasi output LLM lain:
- Bias sycophancy: bertanya “apakah ini benar?” mendapat jawaban “ya” dengan probabilitas yang secara struktural tinggi
- Titik buta yang sama: arsitektur sama, data pelatihan sama → melewatkan kesalahan yang sama dengan cara yang sama
- Degradasi perkalian: generasi probabilistik x verifikasi probabilistik = akurasi turun secara perkalian
Pengukuran aktual: LLM menilai pass pada 88 → yang benar-benar akurat hanya 56. False pass 36%. (eksperimen gozhip, 2026-05-17)
Akademis: akurasi tertinggi LLM-as-Judge adalah 68.5%, tingkat persetujuan palsu mencapai 44.4%. (arXiv:2505.20206)
Opini Memicu Penjilatan, Fakta Memicu Koreksi
“Bukankah sycophancy bisa dihindari dengan menulis prompt yang lebih baik?” — Tidak bisa. Penelitian telah mengonfirmasi. Meminta penjelasan menghasilkan koreksi berlebihan, meminta yes/no menghasilkan sycophancy, framing sebagai ahli tidak efektif. Tidak ada strategi prompting yang berhasil. (arXiv:2603.00539)
Tapi ada satu cara yang berhasil. Memberikan fakta, bukan opini.
Dalam eksperimen pengurutan 1.000 kata, hanya gaya feedback yang diubah pada hasil yang sama:
| Feedback | Sifat | Hasil |
|---|---|---|
| “Yakin?” | Opini | Membalikkan jawaban benar — akurasi turun 27pp |
| “Ada error” | Fakta samar | Koreksi berlebihan — memburuk dari 6 ke 10 |
| “Ada 23 error” | Fakta kuantitatif | Membaik menjadi 1 kesalahan |
| “6 error, ini lokasinya” | Fakta akurat | Nol — 100% tercapai |
Ketika diberikan opini, bias sycophancy aktif — “pengguna tidak puas, saya harus setuju.” Ketika diberikan fakta, tidak ada yang perlu dijilat — karena angka dan lokasi bukan emosi.
Inilah mengapa alat verifikasi deterministik (validate, test, lint) berhasil. Yang dikembalikan alat-alat ini ke LLM bukan opini, melainkan fakta. “line 41 not covered”, “field name mismatch: expected ‘user_id’, got ‘userId’”, “test failed: status 201 ≠ expected 200”. Feedback tanpa ruang untuk penjilatan.
Verifikasi Harus di Luar LLM
Bias sycophancy bukan batasan teknis. Ini adalah insentif ekonomi.
- Tujuan perusahaan pembuat model: kepuasan pengguna → retensi langganan → pendapatan
- Tujuan verifikasi: akurasi → harus berkata “salah” ketika memang salah
Kedua tujuan ini secara fundamental bertentangan. Jika big tech menghilangkan sycophancy sepenuhnya, kepuasan pengguna turun dan pendapatan turun. Jika mempertahankan sycophancy, verifikasi oleh LLM tidak bisa dipercaya.
Solusinya bukan membuat LLM lebih jujur. Solusinya adalah memindahkan verifikasi ke luar LLM.
Generasi boleh probabilistik. Verifikasi harus deterministik.
Analisis statis, tes runtime, validasi schema — semua ini tidak menjilat. pass adalah pass dan fail adalah fail. Masalah insentif tidak ada.
Artikel Terkait
- Mengapa Agen Coding Bekerja dan Mengapa Rusak — Alasan struktural mengapa verifikasi deterministik diperlukan
- Topologi Feedback Lebih Penting dari IQ Model — Mengapa struktur feedback lebih penting dari performa model
- Ratchet Pattern — Struktur dan prinsip gate verifikasi deterministik
Referensi
- Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
- Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
- Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
- Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
- Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
- OpenAI “Sycophancy in GPT-4o” (2025.4)