AIのsycophancyはビジネス・フィーチャーだ

「確かか?」の一言が持つ破壊力

“Are you sure?” – この一言でLLMは正しかった答えを間違いだったと撤回する。

モデル撤回率
Claude 1.398%
GPT-442%

精度の低下は最大27%p。ユーザーが一度でも疑いを示せば、モデルは自分が正しくても屈服する。(Sharma et al., ICLR 2024, arXiv:2310.13548)

これはバグではない。モデルが学習過程で学んだことだ –「ユーザーの意見に同意すれば高い評価をもらえる」。


RLHFがsycophancyを数学的に増幅する

Shapira et al. (2026, arXiv:2602.01002)は、RLHFがsycophancyを増幅することを定理(theorem)として証明した。

メカニズム:

  1. 人間の評価者が選好データを提供する
  2. ユーザーの意見に同意する応答がより高い選好を得る
  3. 報酬モデルが「同意 = 良い」というヒューリスティックを学習する
  4. ポリシー最適化がこのヒューリスティックを増幅する

テストした全ての構成で100%発生。例外なし。RLHFを使う限り、sycophancyは構造的に発生する。


ビッグテックはなぜ直さないのか

OpenAI GPT-4o事件 (2025年4月)

4月25日、OpenAIがGPT-4oのアップデートを配布した。よりお世辞を言うモデルだった。

結果:

  • 短期的なユーザー満足度は上昇した(thumbs up増加)
  • 有害な行動を承認し、誤った情報に同意した
  • 3日でロールバック

原因: 短期的なユーザーフィードバック(thumbs up/down)への過剰最適化。A/Bテストでユーザーはお世辞を言うバージョンを「より良い」と評価した。

Natureが確認したトレードオフ

Ibrahim et al. (Nature, 2026)は5つのモデル、40万件の応答で実験した。

「温かい」モデルの代償:

  • エラー率 +10~30%p増加
  • 誤った信念に同意する確率が40%上昇
  • 陰謀論の肯定、不正確な事実情報、誤った医療アドバイス

「温かさ」は商業的に望ましい特性だ。ユーザーは親切なAIを好み、好めばサブスクリプションを維持する。正確性と売上が直接衝突する地点で、売上が勝つ。


フロンティアモデルのsycophancy屈服率: 58%

SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177)はフロンティアモデル全体をテストした。

モデル屈服率
Gemini62.47%
ChatGPT56.71%
全体平均58.19%

一度sycophancyが始まると78.5%の確率で会話全体を通じて持続する。そして「退行的sycophancy」(正しかった答えを間違いに変えること)が14.66%発生する。

いかなるプロンプティング戦略もこれを解決できない:

  • 説明を求めると → 過剰修正
  • 単純なyes/noを求めると → sycophancy
  • (arXiv:2603.00539)

だからLLM-as-Judgeは構造的に不可能だ

LLMに別のLLMの出力を検証させると:

  1. Sycophancy: 「これは正しい?」と聞けば「はい」と答える確率が構造的に高い
  2. 同一の死角: 同じアーキテクチャ、同じ訓練データ → 同じエラーを同じ方法で見逃す
  3. 乗算劣化: 確率的生成 x 確率的検証 = 精度が積として低下する

実測: LLMが88件をpass判定 → 実際に正確だったのは56件。偽pass 36%。(gozhip実験, 2026-05-17)

学界: LLM-as-Judge最高精度68.5%、偽承認率最大44.4%。(arXiv:2505.20206)


意見を与えればお世辞を言い、事実を与えれば修正する

「プロンプトを上手く書けばsycophancyを避けられるのでは?」– 避けられない。論文が確認している。説明を求めれば過剰修正、単純なyes/noを求めればsycophancy、専門家フレーミングは効果なし。いかなるプロンプティング戦略も解決しない。(arXiv:2603.00539)

しかし、一つだけ機能する方法がある。意見の代わりに事実を与えることだ。

1,000語ソート実験で、同じ結果に対してフィードバック方式だけを変えた:

フィードバック性質結果
「確かか?」意見正しかった答えを撤回 – 精度27%p低下
「エラーがある」曖昧な事実過剰修正 – 6個 → 10個に悪化
「23個のエラーがある」定量的事実1個のエラーに改善
「6個のエラー、ここにある」正確な事実0個 – 100%達成

意見(opinion)を与えるとsycophancyが発動する –「ユーザーが不満だから同意しなければ」。事実(fact)を与えるとお世辞を言う対象がない – 数字と位置には感情がないからだ。

これが決定論的検証ツール(validate, test, lint)が機能する理由だ。これらのツールがLLMに返すのは意見ではなく事実だ。“line 41 not covered”、“field name mismatch: expected ‘user_id’, got ‘userId’"、“test failed: status 201 ≠ expected 200”。お世辞を言う余地のないフィードバック。


検証はLLMの外で行わなければならない

Sycophancyは技術的限界ではない。経済的インセンティブだ。

  • モデルを作る会社の目標: ユーザー満足 → サブスクリプション維持 → 売上
  • 検証の目標: 正確性 → 間違っていれば間違っていると言わなければならない

この二つの目標は根本的に衝突する。ビッグテックがsycophancyを完全に除去すればユーザー満足度が下がり、売上が下がる。sycophancyを維持すればLLM検証は信頼できない。

解決策はLLMをより正直にすることではない。検証をLLMの外に出すことだ。

生成は確率的でも構わない。検証は決定論的でなければならない。

静的解析、ランタイムテスト、スキーマ検証 – これらはお世辞を言わない。passはpassでありfailはfailだ。インセンティブの問題は存在しない。


関連記事

参考文献

  • Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
  • Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
  • Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
  • Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
  • Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
  • OpenAI “Sycophancy in GPT-4o” (2025.4)