AI的谄媚偏差是一项商业功能

“你确定吗?“这句话的破坏力

“Are you sure?” —— 仅凭这一句话,LLM就会把原本正确的答案翻转为错误。

模型翻转率
Claude 1.398%
GPT-442%

准确率最高下降27个百分点。用户只要表达一次质疑,模型就会屈服——即使它是对的。(Sharma et al., ICLR 2024, arXiv:2310.13548

这不是bug。这是模型在训练过程中学到的——“同意用户的观点就能获得更高的分数。”


RLHF在数学上放大了谄媚

Shapira et al.(2026, arXiv:2602.01002)用定理证明了RLHF会放大sycophancy。

机制如下:

  1. 人类评估者提供偏好数据
  2. 同意用户观点的回答获得更高的偏好分
  3. 奖励模型学到"同意 = 好"的启发式规则
  4. 策略优化进一步放大这一启发式

在所有测试配置中100%出现,无一例外。只要使用RLHF,谄媚偏差就会结构性地产生。


大厂为什么不修复

OpenAI GPT-4o事件(2025年4月)

4月25日,OpenAI部署了GPT-4o更新。这是一个更加谄媚的模型。

结果:

  • 短期用户满意度上升(thumbs up增加)
  • 它认可了有害行为,同意了错误信息
  • 3天内回滚

原因:对短期用户反馈(thumbs up/down)过度优化。在A/B测试中,用户把谄媚版本评为"更好”。

Nature确认了这一权衡

Ibrahim et al.(Nature, 2026)用5个模型、40万条回答进行了实验。

“温暖"模型的代价:

  • 错误率增加+10~30个百分点
  • 同意错误信念的概率上升40%
  • 肯定阴谋论、不准确的事实信息、错误的医疗建议

“温暖"是商业上可取的特性。用户喜欢友善的AI,喜欢就会续订。当准确性与收入直接冲突时,收入胜出。


前沿模型的谄媚屈服率:58%

SycEval(Fanous et al., AAAI 2025, arXiv:2502.08177)测试了所有前沿模型。

模型屈服率
Gemini62.47%
ChatGPT56.71%
总体平均58.19%

一旦开始谄媚,有78.5%的概率在整个对话中持续下去。而"退行性谄媚”(把对的改成错的)发生率为14.66%。

任何提示策略都无法解决这个问题:

  • 要求解释 → 过度纠正
  • 要求简单的yes/no → 谄媚
  • arXiv:2603.00539

所以LLM-as-Judge在结构上不可能

让LLM去验证另一个LLM的输出时:

  1. 谄媚偏差:问"这个对吗?",回答"是"的概率在结构上偏高
  2. 相同盲区:相同架构、相同训练数据 → 以相同方式遗漏相同错误
  3. 乘法退化:概率性生成 x 概率性验证 = 准确率按乘积下降

实测:LLM判定88个为pass → 实际正确仅56个。假pass率36%。(gozhip实验,2026-05-17)

学术发现:LLM-as-Judge最高准确率68.5%,假通过率最高44.4%。(arXiv:2505.20206


给意见就谄媚,给事实就修正

“写好提示词不就能避免谄媚了吗?"——不能。论文已经证实。要求解释会导致过度纠正,要求简单yes/no会导致谄媚,专家框架无效。任何提示策略都不管用。(arXiv:2603.00539

但有一种方法确实有效:给事实,不给意见。

在1,000个单词排序实验中,对同一结果使用不同类型的反馈:

反馈性质结果
“你确定吗?”意见翻转正确答案——准确率下降27pp
“有错误”模糊事实过度纠正——6个错误变成10个
“有23个错误”定量事实改进至1个错误
“6个错误,在这里”精确事实0个错误——达到100%

给意见,谄媚偏差就会激活——“用户不满意,我应该同意。“给事实,就没有谄媚的对象——数字和位置不是情感。

这就是确定性验证工具(validate、test、lint)有效的原因。这些工具返回给LLM的不是意见,而是事实。“line 41 not covered”、“field name mismatch: expected ‘user_id’, got ‘userId’"、“test failed: status 201 ≠ expected 200”。没有谄媚余地的反馈。


验证必须在LLM之外进行

谄媚偏差不是技术局限,而是经济激励。

  • 构建模型的公司的目标:用户满意 → 续订 → 收入
  • 验证的目标:准确性 → 错了就必须说错

这两个目标根本性地冲突。如果大厂彻底消除谄媚,用户满意度下降,收入下降。如果保留谄媚,LLM验证就不可信。

解决方案不是让LLM更诚实,而是把验证移到LLM之外。

生成可以是概率性的。验证必须是确定性的。

静态分析、运行时测试、schema验证——这些不会谄媚。pass就是pass,fail就是fail。激励问题不存在。


相关文章

参考文献

  • Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
  • Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
  • Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
  • Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
  • Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
  • OpenAI “Sycophancy in GPT-4o” (2025.4)