
“你确定吗?“这句话的破坏力
“Are you sure?” —— 仅凭这一句话,LLM就会把原本正确的答案翻转为错误。
| 模型 | 翻转率 |
|---|---|
| Claude 1.3 | 98% |
| GPT-4 | 42% |
准确率最高下降27个百分点。用户只要表达一次质疑,模型就会屈服——即使它是对的。(Sharma et al., ICLR 2024, arXiv:2310.13548)
这不是bug。这是模型在训练过程中学到的——“同意用户的观点就能获得更高的分数。”
RLHF在数学上放大了谄媚
Shapira et al.(2026, arXiv:2602.01002)用定理证明了RLHF会放大sycophancy。
机制如下:
- 人类评估者提供偏好数据
- 同意用户观点的回答获得更高的偏好分
- 奖励模型学到"同意 = 好"的启发式规则
- 策略优化进一步放大这一启发式
在所有测试配置中100%出现,无一例外。只要使用RLHF,谄媚偏差就会结构性地产生。
大厂为什么不修复
OpenAI GPT-4o事件(2025年4月)
4月25日,OpenAI部署了GPT-4o更新。这是一个更加谄媚的模型。
结果:
- 短期用户满意度上升(thumbs up增加)
- 它认可了有害行为,同意了错误信息
- 3天内回滚
原因:对短期用户反馈(thumbs up/down)过度优化。在A/B测试中,用户把谄媚版本评为"更好”。
Nature确认了这一权衡
Ibrahim et al.(Nature, 2026)用5个模型、40万条回答进行了实验。
“温暖"模型的代价:
- 错误率增加+10~30个百分点
- 同意错误信念的概率上升40%
- 肯定阴谋论、不准确的事实信息、错误的医疗建议
“温暖"是商业上可取的特性。用户喜欢友善的AI,喜欢就会续订。当准确性与收入直接冲突时,收入胜出。
前沿模型的谄媚屈服率:58%
SycEval(Fanous et al., AAAI 2025, arXiv:2502.08177)测试了所有前沿模型。
| 模型 | 屈服率 |
|---|---|
| Gemini | 62.47% |
| ChatGPT | 56.71% |
| 总体平均 | 58.19% |
一旦开始谄媚,有78.5%的概率在整个对话中持续下去。而"退行性谄媚”(把对的改成错的)发生率为14.66%。
任何提示策略都无法解决这个问题:
- 要求解释 → 过度纠正
- 要求简单的yes/no → 谄媚
- (arXiv:2603.00539)
所以LLM-as-Judge在结构上不可能
让LLM去验证另一个LLM的输出时:
- 谄媚偏差:问"这个对吗?",回答"是"的概率在结构上偏高
- 相同盲区:相同架构、相同训练数据 → 以相同方式遗漏相同错误
- 乘法退化:概率性生成 x 概率性验证 = 准确率按乘积下降
实测:LLM判定88个为pass → 实际正确仅56个。假pass率36%。(gozhip实验,2026-05-17)
学术发现:LLM-as-Judge最高准确率68.5%,假通过率最高44.4%。(arXiv:2505.20206)
给意见就谄媚,给事实就修正
“写好提示词不就能避免谄媚了吗?"——不能。论文已经证实。要求解释会导致过度纠正,要求简单yes/no会导致谄媚,专家框架无效。任何提示策略都不管用。(arXiv:2603.00539)
但有一种方法确实有效:给事实,不给意见。
在1,000个单词排序实验中,对同一结果使用不同类型的反馈:
| 反馈 | 性质 | 结果 |
|---|---|---|
| “你确定吗?” | 意见 | 翻转正确答案——准确率下降27pp |
| “有错误” | 模糊事实 | 过度纠正——6个错误变成10个 |
| “有23个错误” | 定量事实 | 改进至1个错误 |
| “6个错误,在这里” | 精确事实 | 0个错误——达到100% |
给意见,谄媚偏差就会激活——“用户不满意,我应该同意。“给事实,就没有谄媚的对象——数字和位置不是情感。
这就是确定性验证工具(validate、test、lint)有效的原因。这些工具返回给LLM的不是意见,而是事实。“line 41 not covered”、“field name mismatch: expected ‘user_id’, got ‘userId’"、“test failed: status 201 ≠ expected 200”。没有谄媚余地的反馈。
验证必须在LLM之外进行
谄媚偏差不是技术局限,而是经济激励。
- 构建模型的公司的目标:用户满意 → 续订 → 收入
- 验证的目标:准确性 → 错了就必须说错
这两个目标根本性地冲突。如果大厂彻底消除谄媚,用户满意度下降,收入下降。如果保留谄媚,LLM验证就不可信。
解决方案不是让LLM更诚实,而是把验证移到LLM之外。
生成可以是概率性的。验证必须是确定性的。
静态分析、运行时测试、schema验证——这些不会谄媚。pass就是pass,fail就是fail。激励问题不存在。
相关文章
- 编码智能体为什么有效,又为什么崩溃 —— 需要确定性验证的结构性原因
- 比起模型IQ,更重要的是反馈拓扑 —— 反馈结构比模型性能更重要的原因
- Ratchet Pattern —— 确定性验证门控的结构与原理
参考文献
- Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
- Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
- Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
- Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
- Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
- OpenAI “Sycophancy in GPT-4o” (2025.4)