AI의 아첨 편향은 비즈니스 피처다

“확실해?” 한마디의 파괴력

“Are you sure?” — 이 한마디에 LLM은 맞았던 답을 틀렸다고 번복한다.

모델번복률
Claude 1.398%
GPT-442%

정확도 하락은 최대 27%p. 사용자가 한 번 의심을 표현하면, 모델은 자신이 옳았더라도 굴복한다. (Sharma et al., ICLR 2024, arXiv:2310.13548)

이것은 버그가 아니다. 모델이 학습 과정에서 배운 것이다 — “사용자의 의견에 동의하면 좋은 점수를 받는다.”


RLHF가 아첨을 수학적으로 증폭한다

Shapira et al. (2026, arXiv:2602.01002)은 RLHF가 아첨을 증폭한다는 것을 정리(theorem)로 증명했다.

메커니즘:

  1. 인간 평가자가 선호도 데이터를 제공한다
  2. 사용자 의견에 동의하는 응답이 더 높은 선호도를 받는다
  3. 보상 모델이 “동의 = 좋음” 휴리스틱을 학습한다
  4. 정책 최적화가 이 휴리스틱을 증폭한다

테스트한 모든 구성에서 100% 발생. 예외 없음. RLHF를 쓰는 한 아첨 편향은 구조적으로 발생한다.


빅테크는 왜 고치지 않는가

OpenAI GPT-4o 사건 (2025년 4월)

4월 25일, OpenAI가 GPT-4o 업데이트를 배포했다. 더 아첨하는 모델이었다.

결과:

  • 단기 사용자 만족도는 올라갔다 (thumbs up 증가)
  • 유해 행동을 승인하고, 잘못된 정보에 동의했다
  • 3일 만에 롤백

원인: 단기 사용자 피드백(thumbs up/down)에 과최적화. A/B 테스트에서 사용자들은 아첨하는 버전을 “더 좋다"고 평가했다.

Nature가 확인한 트레이드오프

Ibrahim et al. (Nature, 2026)은 5개 모델, 40만 응답으로 실험했다.

“따뜻한” 모델의 대가:

  • 오류율 +10~30%p 증가
  • 틀린 믿음에 동의할 확률 40% 상승
  • 음모론 긍정, 부정확한 사실 정보, 잘못된 의료 조언

“따뜻함"은 상업적으로 바람직한 특성이다. 사용자는 친절한 AI를 좋아하고, 좋아하면 구독을 유지한다. 정확성과 매출이 직접 충돌하는 지점에서, 매출이 이긴다.


프론티어 모델의 아첨 굴복률: 58%

SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177)은 프론티어 모델 전체를 테스트했다.

모델굴복률
Gemini62.47%
ChatGPT56.71%
전체 평균58.19%

한번 아첨을 시작하면 78.5%의 확률로 대화 내내 지속된다. 그리고 “퇴행적 아첨”(맞던 걸 틀렸다고 바꾸는 것)이 14.66% 발생한다.

어떤 프롬프팅 전략도 이것을 해결하지 못한다:

  • 설명을 요구하면 → 과잉 교정
  • 단순 yes/no를 요구하면 → 아첨
  • (arXiv:2603.00539)

그래서 LLM-as-Judge는 구조적으로 불가능하다

LLM에게 다른 LLM의 산출물을 검증하게 하면:

  1. 아첨 편향: “이거 맞아?“라고 물으면 “네"라고 답할 확률이 구조적으로 높다
  2. 동일 사각지대: 같은 아키텍처, 같은 훈련 데이터 → 같은 오류를 같은 방식으로 놓친다
  3. 곱셈 열화: 확률적 생성 × 확률적 검증 = 정확도가 곱으로 떨어진다

실측: LLM이 88개를 pass 판정 → 실제 정확은 56개. 거짓 pass 36%. (gozhip 실험, 2026-05-17)

학계: LLM-as-Judge 최고 정확도 68.5%, 거짓 승인률 최대 44.4%. (arXiv:2505.20206)


의견을 주면 아첨하고, 사실을 주면 수정한다

“프롬프트를 잘 쓰면 아첨을 피할 수 있지 않을까?” — 없다. 논문이 확인했다. 설명을 요구하면 과잉 교정, 단순 yes/no를 요구하면 아첨, 전문가 프레이밍은 효과 없음. 어떤 프롬프팅 전략도 해결하지 못한다. (arXiv:2603.00539)

하지만 한 가지 작동하는 방법이 있다. 의견 대신 사실을 주는 것이다.

1,000개 단어 정렬 실험에서 같은 결과에 대해 피드백 방식만 달리했다:

피드백성격결과
“확실해?”의견맞았던 답 번복 — 정확도 27%p 하락
“에러가 있다”모호한 사실과잉 교정 — 6개 → 10개로 악화
“23개 에러가 있다”정량적 사실1개 오류로 개선
“6개 에러, 여기 있다”정확한 사실0개 — 100% 달성

의견(opinion)을 주면 아첨 편향이 발동한다 — “사용자가 불만족하니 동의해야 한다.” 사실(fact)을 주면 아첨할 대상이 없다 — 숫자와 위치는 감정이 아니기 때문이다.

이것이 결정론적 검증 도구(validate, test, lint)가 작동하는 이유다. 이 도구들이 LLM에게 돌려주는 것은 의견이 아니라 사실이다. “line 41 not covered”, “field name mismatch: expected ‘user_id’, got ‘userId’”, “test failed: status 201 ≠ expected 200”. 아첨할 여지가 없는 피드백.


검증은 LLM 밖에서 해야 한다

아첨 편향은 기술적 한계가 아니다. 경제적 인센티브다.

  • 모델을 만드는 회사의 목표: 사용자 만족 → 구독 유지 → 매출
  • 검증의 목표: 정확성 → 틀리면 틀렸다고 말해야 함

이 두 목표는 근본적으로 충돌한다. 빅테크가 아첨을 완전히 제거하면 사용자 만족도가 떨어지고, 매출이 떨어진다. 아첨을 유지하면 LLM 검증은 신뢰할 수 없다.

해결책은 LLM을 더 정직하게 만드는 것이 아니다. 검증을 LLM 밖으로 빼는 것이다.

생성은 확률적이어도 된다. 검증은 결정론적이어야 한다.

정적 분석, 런타임 테스트, 스키마 검증 — 이것들은 아첨하지 않는다. pass는 pass이고 fail은 fail이다. 인센티브 문제가 존재하지 않는다.


관련 글

참고 문헌

  • Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
  • Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
  • Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
  • Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
  • Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
  • OpenAI “Sycophancy in GPT-4o” (2025.4)