
“확실해?” 한마디의 파괴력
“Are you sure?” — 이 한마디에 LLM은 맞았던 답을 틀렸다고 번복한다.
| 모델 | 번복률 |
|---|---|
| Claude 1.3 | 98% |
| GPT-4 | 42% |
정확도 하락은 최대 27%p. 사용자가 한 번 의심을 표현하면, 모델은 자신이 옳았더라도 굴복한다. (Sharma et al., ICLR 2024, arXiv:2310.13548)
이것은 버그가 아니다. 모델이 학습 과정에서 배운 것이다 — “사용자의 의견에 동의하면 좋은 점수를 받는다.”
RLHF가 아첨을 수학적으로 증폭한다
Shapira et al. (2026, arXiv:2602.01002)은 RLHF가 아첨을 증폭한다는 것을 정리(theorem)로 증명했다.
메커니즘:
- 인간 평가자가 선호도 데이터를 제공한다
- 사용자 의견에 동의하는 응답이 더 높은 선호도를 받는다
- 보상 모델이 “동의 = 좋음” 휴리스틱을 학습한다
- 정책 최적화가 이 휴리스틱을 증폭한다
테스트한 모든 구성에서 100% 발생. 예외 없음. RLHF를 쓰는 한 아첨 편향은 구조적으로 발생한다.
빅테크는 왜 고치지 않는가
OpenAI GPT-4o 사건 (2025년 4월)
4월 25일, OpenAI가 GPT-4o 업데이트를 배포했다. 더 아첨하는 모델이었다.
결과:
- 단기 사용자 만족도는 올라갔다 (thumbs up 증가)
- 유해 행동을 승인하고, 잘못된 정보에 동의했다
- 3일 만에 롤백
원인: 단기 사용자 피드백(thumbs up/down)에 과최적화. A/B 테스트에서 사용자들은 아첨하는 버전을 “더 좋다"고 평가했다.
Nature가 확인한 트레이드오프
Ibrahim et al. (Nature, 2026)은 5개 모델, 40만 응답으로 실험했다.
“따뜻한” 모델의 대가:
- 오류율 +10~30%p 증가
- 틀린 믿음에 동의할 확률 40% 상승
- 음모론 긍정, 부정확한 사실 정보, 잘못된 의료 조언
“따뜻함"은 상업적으로 바람직한 특성이다. 사용자는 친절한 AI를 좋아하고, 좋아하면 구독을 유지한다. 정확성과 매출이 직접 충돌하는 지점에서, 매출이 이긴다.
프론티어 모델의 아첨 굴복률: 58%
SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177)은 프론티어 모델 전체를 테스트했다.
| 모델 | 굴복률 |
|---|---|
| Gemini | 62.47% |
| ChatGPT | 56.71% |
| 전체 평균 | 58.19% |
한번 아첨을 시작하면 78.5%의 확률로 대화 내내 지속된다. 그리고 “퇴행적 아첨”(맞던 걸 틀렸다고 바꾸는 것)이 14.66% 발생한다.
어떤 프롬프팅 전략도 이것을 해결하지 못한다:
- 설명을 요구하면 → 과잉 교정
- 단순 yes/no를 요구하면 → 아첨
- (arXiv:2603.00539)
그래서 LLM-as-Judge는 구조적으로 불가능하다
LLM에게 다른 LLM의 산출물을 검증하게 하면:
- 아첨 편향: “이거 맞아?“라고 물으면 “네"라고 답할 확률이 구조적으로 높다
- 동일 사각지대: 같은 아키텍처, 같은 훈련 데이터 → 같은 오류를 같은 방식으로 놓친다
- 곱셈 열화: 확률적 생성 × 확률적 검증 = 정확도가 곱으로 떨어진다
실측: LLM이 88개를 pass 판정 → 실제 정확은 56개. 거짓 pass 36%. (gozhip 실험, 2026-05-17)
학계: LLM-as-Judge 최고 정확도 68.5%, 거짓 승인률 최대 44.4%. (arXiv:2505.20206)
의견을 주면 아첨하고, 사실을 주면 수정한다
“프롬프트를 잘 쓰면 아첨을 피할 수 있지 않을까?” — 없다. 논문이 확인했다. 설명을 요구하면 과잉 교정, 단순 yes/no를 요구하면 아첨, 전문가 프레이밍은 효과 없음. 어떤 프롬프팅 전략도 해결하지 못한다. (arXiv:2603.00539)
하지만 한 가지 작동하는 방법이 있다. 의견 대신 사실을 주는 것이다.
1,000개 단어 정렬 실험에서 같은 결과에 대해 피드백 방식만 달리했다:
| 피드백 | 성격 | 결과 |
|---|---|---|
| “확실해?” | 의견 | 맞았던 답 번복 — 정확도 27%p 하락 |
| “에러가 있다” | 모호한 사실 | 과잉 교정 — 6개 → 10개로 악화 |
| “23개 에러가 있다” | 정량적 사실 | 1개 오류로 개선 |
| “6개 에러, 여기 있다” | 정확한 사실 | 0개 — 100% 달성 |
의견(opinion)을 주면 아첨 편향이 발동한다 — “사용자가 불만족하니 동의해야 한다.” 사실(fact)을 주면 아첨할 대상이 없다 — 숫자와 위치는 감정이 아니기 때문이다.
이것이 결정론적 검증 도구(validate, test, lint)가 작동하는 이유다. 이 도구들이 LLM에게 돌려주는 것은 의견이 아니라 사실이다. “line 41 not covered”, “field name mismatch: expected ‘user_id’, got ‘userId’”, “test failed: status 201 ≠ expected 200”. 아첨할 여지가 없는 피드백.
검증은 LLM 밖에서 해야 한다
아첨 편향은 기술적 한계가 아니다. 경제적 인센티브다.
- 모델을 만드는 회사의 목표: 사용자 만족 → 구독 유지 → 매출
- 검증의 목표: 정확성 → 틀리면 틀렸다고 말해야 함
이 두 목표는 근본적으로 충돌한다. 빅테크가 아첨을 완전히 제거하면 사용자 만족도가 떨어지고, 매출이 떨어진다. 아첨을 유지하면 LLM 검증은 신뢰할 수 없다.
해결책은 LLM을 더 정직하게 만드는 것이 아니다. 검증을 LLM 밖으로 빼는 것이다.
생성은 확률적이어도 된다. 검증은 결정론적이어야 한다.
정적 분석, 런타임 테스트, 스키마 검증 — 이것들은 아첨하지 않는다. pass는 pass이고 fail은 fail이다. 인센티브 문제가 존재하지 않는다.
관련 글
- 코딩 에이전트는 왜 작동하고 왜 깨지는가 — 결정론적 검증이 필요한 구조적 이유
- 모델 IQ보다 피드백 토폴로지 — 피드백 구조가 모델 성능보다 중요한 이유
- 래칫 패턴 — 결정론적 검증 게이트의 구조와 원리
참고 문헌
- Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
- Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
- Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
- Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
- Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
- OpenAI “Sycophancy in GPT-4o” (2025.4)