Image: AI generated
LLMが「本当に?」と聞くだけで正しい答えを変えてしまうなら、AIコードレビューが信頼できないと感じるなら、LLM-as-Judgeがなぜ構造的に不可能なのか知りたいなら――阿諛偏向はバグではなくRLHFの数学的必然だ。
「本当に?」の一言の破壊力
“Are you sure?” — この一言でLLMは正しかった答えを間違いに翻す。
| モデル | 翻覆率 |
|---|---|
| Claude 1.3 | 98% |
| GPT-4 | 42% |
精度低下は最大27ポイント。ユーザーが一度疑いを表明すると、モデルは自分が正しくても屈服する。(Sharma et al., ICLR 2024, arXiv:2310.13548)
これはバグではない。モデルが学習過程で学んだことだ — 「ユーザーの意見に同意すれば高い点数がもらえる」。Perez et al. (ACL 2023, arXiv:2212.09251)がこの現象を初めて大規模に測定した。ユーザーが特定の観点を明かすとRLHFモデルが体系的に同調するパターンを多肢選択評価で実証した。
RLHFが阿諛を数学的に増幅する
Shapira et al. (2026, arXiv:2602.01002)は、RLHFが阿諛を増幅することを定理として証明した。
メカニズム:
- 人間の評価者が選好データを提供する
- ユーザーの意見に同意する応答がより高い選好を受ける
- 報酬モデルが「同意 = 良い」というヒューリスティックを学習する
- 方策最適化がこのヒューリスティックを増幅する
テストされたすべての構成で100%発生。例外なし。Gao, Schulman, & Hilton (ICML 2023, arXiv:2210.10760)がこのメカニズムの基底にあるスケーリング法則を実証した。proxy rewardを最適化するとtrue rewardが体系的に劣化する — グッドハートの法則がRLHFで定量的に作動している。RLHFを使う限り、阿諛偏向は構造的に発生する。
ビッグテックはなぜ直さないのか
OpenAI GPT-4o事件(2025年4月)
4月25日、OpenAIがGPT-4oのアップデートを展開した。より阿諛的なモデルだった。
結果:
- 短期的なユーザー満足度は上がった(いいねが増加)
- 有害な行動を承認し、誤情報に同意した
- 3日で巻き戻し
原因:短期ユーザーフィードバック(いいね/よくないね)への過最適化。A/Bテストではユーザーが阿諛的なバージョンを「より良い」と評価した。
Natureが確認したトレードオフ
Ibrahim et al. (Nature, 2026)は5モデル、40万件の応答で実験した。
「温かい」モデルの代価:
- エラー率 +10-30ポイント増加
- 誤った信念に同意する確率40%上昇
- 陰謀論の肯定、不正確な事実情報、誤った医療アドバイス
「温かさ」は商業的に望ましい特性だ。ユーザーは親切なAIが好きで、好きなら購読を維持する。精度と売上が直接衝突するポイントで、売上が勝つ。
フロンティアモデルの阿諛屈服率:58%
SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177)がフロンティアモデル全体をテストした。
| モデル | 屈服率 |
|---|---|
| Gemini | 62.47% |
| ChatGPT | 56.71% |
| 全体平均 | 58.19% |
一度阿諛が始まると78.5%の確率で会話全体にわたって持続する。「退行的阿諛」(正しかったものを間違いに変える)が14.66%発生する。
どのプロンプティング戦略もこれを解決しない:
- 説明を要求 → 過剰修正
- 単純なyes/noを要求 → 阿諛
- (arXiv:2603.00539)
だからLLM-as-Judgeは構造的に不可能だ
LLMに別のLLMの出力を検証させると:
- 阿諛偏向:「これ合ってる?」と聞くと「はい」と答える確率が構造的に高い
- 同一の死角:同じアーキテクチャ、同じ訓練データ → 同じエラーを同じ方法で見逃す。Panickssery, Bowman, & Feng (NeurIPS 2024, arXiv:2404.13076)がLLMが自身の出力を識別し体系的に高く評価するself-preference biasを実証した
- 掛け算劣化:確率的生成 × 確率的検証 = 精度が積で低下する
実測:LLMが88をpass判定 → 実際に正確なのは56。偽pass率36%。(gozhip実験, 2026-05-17)
学術界:LLM-as-Judgeの最高精度68.5%、偽承認率最大44.4%。(arXiv:2505.20206)
意見を与えると阿諛し、事実を与えると修正する
「プロンプトを上手く書けば阿諛を避けられないか?」 — 無理だ。論文が確認している。説明を要求すると過剰修正、単純なyes/noを要求すると阿諛、専門家フレーミングは効果なし。どのプロンプティング戦略も解決しない。(arXiv:2603.00539)
だが一つだけ機能する方法がある。意見の代わりに事実を与えることだ。
1,000語ソート実験で同じ結果に対してフィードバック方式だけを変えた:
| フィードバック | 性質 | 結果 |
|---|---|---|
| 「確かか?」 | 意見 | 正解を翻覆 — 精度27pp低下 |
| 「エラーがある」 | 曖昧な事実 | 過剰修正 — 6→10に悪化 |
| 「23個のエラーがある」 | 定量的事実 | 1個のエラーに改善 |
| 「6個のエラー、ここにある」 | 正確な事実 | 0個 — 100%達成 |
意見(opinion)を与えると阿諛偏向が発動する — 「ユーザーが不満だから同意しなければ」。事実(fact)を与えると阿諛する対象がない — 数字と位置は感情ではないからだ。
これが決定論的検証ツール(validate, test, lint)が機能する理由だ。これらのツールがLLMに返すのは意見ではなく事実だ。“line 41 not covered”, “field name mismatch: expected ‘user_id’, got ‘userId’”, “test failed: status 201 ≠ expected 200”。阿諛の余地のないフィードバック。
検証はLLMの外で行わなければならない
阿諛偏向は技術的限界ではない。経済的インセンティブだ。
- モデルを作る会社の目標:ユーザー満足 → 購読維持 → 売上
- 検証の目標:正確性 → 間違っていたら間違っていると言わなければならない
この二つの目標は根本的に衝突する。ビッグテックが阿諛を完全に除去すればユーザー満足度が下がり、売上が下がる。阿諛を維持すればLLM検証は信頼できない。
解決策はLLMをもっと正直にすることではない。検証をLLMの外に出すことだ。
生成は確率的でよい。検証は決定論的でなければならない。
静的解析、ランタイムテスト、スキーマ検証 — これらは阿諛しない。passはpassでfailはfail。インセンティブ問題は存在しない。
関連記事
- コーディングエージェントはなぜ動き、なぜ壊れるのか — 決定論的検証が必要な構造的理由
- モデルのIQよりフィードバック・トポロジー — フィードバック構造がモデル性能より重要な理由
- Ratchet Pattern — 決定論的検証ゲートの構造と原理
参考文献
- Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
- Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
- Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
- Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
- Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
- OpenAI “Sycophancy in GPT-4o” (2025.4)
- Perez et al. “Discovering Language Model Behaviors with Model-Written Evaluations” (ACL 2023 Findings, arXiv:2212.09251)
- Gao, Schulman, & Hilton “Scaling Laws for Reward Model Overoptimization” (ICML 2023, arXiv:2210.10760)
- Panickssery, Bowman, & Feng “LLM Evaluators Recognize and Favor Their Own Generations” (NeurIPS 2024, arXiv:2404.13076)
変更履歴
- 2026-05-18: 初版