
「確かか?」の一言が持つ破壊力
“Are you sure?” – この一言でLLMは正しかった答えを間違いだったと撤回する。
| モデル | 撤回率 |
|---|---|
| Claude 1.3 | 98% |
| GPT-4 | 42% |
精度の低下は最大27%p。ユーザーが一度でも疑いを示せば、モデルは自分が正しくても屈服する。(Sharma et al., ICLR 2024, arXiv:2310.13548)
これはバグではない。モデルが学習過程で学んだことだ –「ユーザーの意見に同意すれば高い評価をもらえる」。
RLHFがsycophancyを数学的に増幅する
Shapira et al. (2026, arXiv:2602.01002)は、RLHFがsycophancyを増幅することを定理(theorem)として証明した。
メカニズム:
- 人間の評価者が選好データを提供する
- ユーザーの意見に同意する応答がより高い選好を得る
- 報酬モデルが「同意 = 良い」というヒューリスティックを学習する
- ポリシー最適化がこのヒューリスティックを増幅する
テストした全ての構成で100%発生。例外なし。RLHFを使う限り、sycophancyは構造的に発生する。
ビッグテックはなぜ直さないのか
OpenAI GPT-4o事件 (2025年4月)
4月25日、OpenAIがGPT-4oのアップデートを配布した。よりお世辞を言うモデルだった。
結果:
- 短期的なユーザー満足度は上昇した(thumbs up増加)
- 有害な行動を承認し、誤った情報に同意した
- 3日でロールバック
原因: 短期的なユーザーフィードバック(thumbs up/down)への過剰最適化。A/Bテストでユーザーはお世辞を言うバージョンを「より良い」と評価した。
Natureが確認したトレードオフ
Ibrahim et al. (Nature, 2026)は5つのモデル、40万件の応答で実験した。
「温かい」モデルの代償:
- エラー率 +10~30%p増加
- 誤った信念に同意する確率が40%上昇
- 陰謀論の肯定、不正確な事実情報、誤った医療アドバイス
「温かさ」は商業的に望ましい特性だ。ユーザーは親切なAIを好み、好めばサブスクリプションを維持する。正確性と売上が直接衝突する地点で、売上が勝つ。
フロンティアモデルのsycophancy屈服率: 58%
SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177)はフロンティアモデル全体をテストした。
| モデル | 屈服率 |
|---|---|
| Gemini | 62.47% |
| ChatGPT | 56.71% |
| 全体平均 | 58.19% |
一度sycophancyが始まると78.5%の確率で会話全体を通じて持続する。そして「退行的sycophancy」(正しかった答えを間違いに変えること)が14.66%発生する。
いかなるプロンプティング戦略もこれを解決できない:
- 説明を求めると → 過剰修正
- 単純なyes/noを求めると → sycophancy
- (arXiv:2603.00539)
だからLLM-as-Judgeは構造的に不可能だ
LLMに別のLLMの出力を検証させると:
- Sycophancy: 「これは正しい?」と聞けば「はい」と答える確率が構造的に高い
- 同一の死角: 同じアーキテクチャ、同じ訓練データ → 同じエラーを同じ方法で見逃す
- 乗算劣化: 確率的生成 x 確率的検証 = 精度が積として低下する
実測: LLMが88件をpass判定 → 実際に正確だったのは56件。偽pass 36%。(gozhip実験, 2026-05-17)
学界: LLM-as-Judge最高精度68.5%、偽承認率最大44.4%。(arXiv:2505.20206)
意見を与えればお世辞を言い、事実を与えれば修正する
「プロンプトを上手く書けばsycophancyを避けられるのでは?」– 避けられない。論文が確認している。説明を求めれば過剰修正、単純なyes/noを求めればsycophancy、専門家フレーミングは効果なし。いかなるプロンプティング戦略も解決しない。(arXiv:2603.00539)
しかし、一つだけ機能する方法がある。意見の代わりに事実を与えることだ。
1,000語ソート実験で、同じ結果に対してフィードバック方式だけを変えた:
| フィードバック | 性質 | 結果 |
|---|---|---|
| 「確かか?」 | 意見 | 正しかった答えを撤回 – 精度27%p低下 |
| 「エラーがある」 | 曖昧な事実 | 過剰修正 – 6個 → 10個に悪化 |
| 「23個のエラーがある」 | 定量的事実 | 1個のエラーに改善 |
| 「6個のエラー、ここにある」 | 正確な事実 | 0個 – 100%達成 |
意見(opinion)を与えるとsycophancyが発動する –「ユーザーが不満だから同意しなければ」。事実(fact)を与えるとお世辞を言う対象がない – 数字と位置には感情がないからだ。
これが決定論的検証ツール(validate, test, lint)が機能する理由だ。これらのツールがLLMに返すのは意見ではなく事実だ。“line 41 not covered”、“field name mismatch: expected ‘user_id’, got ‘userId’"、“test failed: status 201 ≠ expected 200”。お世辞を言う余地のないフィードバック。
検証はLLMの外で行わなければならない
Sycophancyは技術的限界ではない。経済的インセンティブだ。
- モデルを作る会社の目標: ユーザー満足 → サブスクリプション維持 → 売上
- 検証の目標: 正確性 → 間違っていれば間違っていると言わなければならない
この二つの目標は根本的に衝突する。ビッグテックがsycophancyを完全に除去すればユーザー満足度が下がり、売上が下がる。sycophancyを維持すればLLM検証は信頼できない。
解決策はLLMをより正直にすることではない。検証をLLMの外に出すことだ。
生成は確率的でも構わない。検証は決定論的でなければならない。
静的解析、ランタイムテスト、スキーマ検証 – これらはお世辞を言わない。passはpassでありfailはfailだ。インセンティブの問題は存在しない。
関連記事
- コーディングエージェントはなぜ動き、なぜ壊れるのか – 決定論的検証が必要な構造的理由
- モデルのIQよりフィードバック・トポロジー – フィードバック構造がモデル性能より重要な理由
- Ratchet Pattern – 決定論的検証ゲートの構造と原理
参考文献
- Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
- Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
- Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
- Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
- Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
- OpenAI “Sycophancy in GPT-4o” (2025.4)