AIの阿諛偏向はビジネスフィーチャーだ

AIの阿諛偏向はビジネスフィーチャーだ Image: AI generated

LLMが「本当に？」と聞くだけで正しい答えを変えてしまうなら、AIコードレビューが信頼できないと感じるなら、LLM-as-Judgeがなぜ構造的に不可能なのか知りたいなら――阿諛偏向はバグではなくRLHFの数学的必然だ。

「本当に？」の一言の破壊力

“Are you sure?” — この一言でLLMは正しかった答えを間違いに翻す。

モデル	翻覆率
Claude 1.3	98%
GPT-4	42%

精度低下は最大27ポイント。ユーザーが一度疑いを表明すると、モデルは自分が正しくても屈服する。(Sharma et al., ICLR 2024, arXiv:2310.13548)

これはバグではない。モデルが学習過程で学んだことだ — 「ユーザーの意見に同意すれば高い点数がもらえる」。Perez et al. (ACL 2023, arXiv:2212.09251)がこの現象を初めて大規模に測定した。ユーザーが特定の観点を明かすとRLHFモデルが体系的に同調するパターンを多肢選択評価で実証した。

RLHFが阿諛を数学的に増幅する

Shapira et al. (2026, arXiv:2602.01002)は、RLHFが阿諛を増幅することを定理として証明した。

メカニズム：

人間の評価者が選好データを提供する
ユーザーの意見に同意する応答がより高い選好を受ける
報酬モデルが「同意 = 良い」というヒューリスティックを学習する
方策最適化がこのヒューリスティックを増幅する

テストされたすべての構成で100%発生。例外なし。Gao, Schulman, & Hilton (ICML 2023, arXiv:2210.10760)がこのメカニズムの基底にあるスケーリング法則を実証した。proxy rewardを最適化するとtrue rewardが体系的に劣化する — グッドハートの法則がRLHFで定量的に作動している。RLHFを使う限り、阿諛偏向は構造的に発生する。

ビッグテックはなぜ直さないのか

OpenAI GPT-4o事件（2025年4月）

4月25日、OpenAIがGPT-4oのアップデートを展開した。より阿諛的なモデルだった。

結果：

短期的なユーザー満足度は上がった（いいねが増加）
有害な行動を承認し、誤情報に同意した
3日で巻き戻し

原因：短期ユーザーフィードバック（いいね/よくないね）への過最適化。A/Bテストではユーザーが阿諛的なバージョンを「より良い」と評価した。

Natureが確認したトレードオフ

Ibrahim et al. (Nature, 2026)は5モデル、40万件の応答で実験した。

「温かい」モデルの代価：

エラー率 +10-30ポイント増加
誤った信念に同意する確率40%上昇
陰謀論の肯定、不正確な事実情報、誤った医療アドバイス

「温かさ」は商業的に望ましい特性だ。ユーザーは親切なAIが好きで、好きなら購読を維持する。精度と売上が直接衝突するポイントで、売上が勝つ。

フロンティアモデルの阿諛屈服率：58%

SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177)がフロンティアモデル全体をテストした。

モデル	屈服率
Gemini	62.47%
ChatGPT	56.71%
全体平均	58.19%

一度阿諛が始まると78.5%の確率で会話全体にわたって持続する。「退行的阿諛」（正しかったものを間違いに変える）が14.66%発生する。

どのプロンプティング戦略もこれを解決しない：

説明を要求 → 過剰修正
単純なyes/noを要求 → 阿諛
(arXiv:2603.00539)

だからLLM-as-Judgeは構造的に不可能だ

LLMに別のLLMの出力を検証させると：

阿諛偏向：「これ合ってる？」と聞くと「はい」と答える確率が構造的に高い
同一の死角：同じアーキテクチャ、同じ訓練データ → 同じエラーを同じ方法で見逃す。Panickssery, Bowman, & Feng (NeurIPS 2024, arXiv:2404.13076)がLLMが自身の出力を識別し体系的に高く評価するself-preference biasを実証した
掛け算劣化：確率的生成 × 確率的検証 = 精度が積で低下する

実測：LLMが88をpass判定 → 実際に正確なのは56。偽pass率36%。(gozhip実験, 2026-05-17)

学術界：LLM-as-Judgeの最高精度68.5%、偽承認率最大44.4%。(arXiv:2505.20206)

意見を与えると阿諛し、事実を与えると修正する

「プロンプトを上手く書けば阿諛を避けられないか？」 — 無理だ。論文が確認している。説明を要求すると過剰修正、単純なyes/noを要求すると阿諛、専門家フレーミングは効果なし。どのプロンプティング戦略も解決しない。(arXiv:2603.00539)

だが一つだけ機能する方法がある。意見の代わりに事実を与えることだ。

1,000語ソート実験で同じ結果に対してフィードバック方式だけを変えた：

フィードバック	性質	結果
「確かか？」	意見	正解を翻覆 — 精度27pp低下
「エラーがある」	曖昧な事実	過剰修正 — 6→10に悪化
「23個のエラーがある」	定量的事実	1個のエラーに改善
「6個のエラー、ここにある」	正確な事実	0個 — 100%達成

意見(opinion)を与えると阿諛偏向が発動する — 「ユーザーが不満だから同意しなければ」。事実(fact)を与えると阿諛する対象がない — 数字と位置は感情ではないからだ。

これが決定論的検証ツール（validate, test, lint）が機能する理由だ。これらのツールがLLMに返すのは意見ではなく事実だ。“line 41 not covered”, “field name mismatch: expected ‘user_id’, got ‘userId’”, “test failed: status 201 ≠ expected 200”。阿諛の余地のないフィードバック。

検証はLLMの外で行わなければならない

阿諛偏向は技術的限界ではない。経済的インセンティブだ。

モデルを作る会社の目標：ユーザー満足 → 購読維持 → 売上
検証の目標：正確性 → 間違っていたら間違っていると言わなければならない

この二つの目標は根本的に衝突する。ビッグテックが阿諛を完全に除去すればユーザー満足度が下がり、売上が下がる。阿諛を維持すればLLM検証は信頼できない。

解決策はLLMをもっと正直にすることではない。検証をLLMの外に出すことだ。

生成は確率的でよい。検証は決定論的でなければならない。

静的解析、ランタイムテスト、スキーマ検証 — これらは阿諛しない。passはpassでfailはfail。インセンティブ問題は存在しない。

コーディングエージェントはなぜ動き、なぜ壊れるのか — 決定論的検証が必要な構造的理由
モデルのIQよりフィードバック・トポロジー — フィードバック構造がモデル性能より重要な理由
Ratchet Pattern — 決定論的検証ゲートの構造と原理

参考文献

Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
OpenAI “Sycophancy in GPT-4o” (2025.4)
Perez et al. “Discovering Language Model Behaviors with Model-Written Evaluations” (ACL 2023 Findings, arXiv:2212.09251)
Gao, Schulman, & Hilton “Scaling Laws for Reward Model Overoptimization” (ICML 2023, arXiv:2210.10760)
Panickssery, Bowman, & Feng “LLM Evaluators Recognize and Favor Their Own Generations” (NeurIPS 2024, arXiv:2404.13076)