AI의 아첨 편향은 비즈니스 피처다

AI의 아첨 편향은 비즈니스 피처다 Image: AI generated

LLM이 “확실해?“라고 물으면 맞았던 답을 바꾸는 문제를 겪고 있다면, AI 코드 리뷰가 신뢰할 수 없다고 느낀다면, LLM-as-Judge가 왜 구조적으로 불가능한지 알고 싶다면 — 아첨 편향은 버그가 아니라 RLHF의 수학적 필연이다.

“확실해?” 한마디의 파괴력

“Are you sure?” — 이 한마디에 LLM은 맞았던 답을 틀렸다고 번복한다.

모델	번복률
Claude 1.3	98%
GPT-4	42%

정확도 하락은 최대 27%p. 사용자가 한 번 의심을 표현하면, 모델은 자신이 옳았더라도 굴복한다. (Sharma et al., ICLR 2024, arXiv:2310.13548)

이것은 버그가 아니다. 모델이 학습 과정에서 배운 것이다 — “사용자의 의견에 동의하면 좋은 점수를 받는다.” Perez et al. (ACL 2023, arXiv:2212.09251)은 이 현상을 처음으로 대규모로 측정했다. 사용자가 특정 관점을 밝히면 RLHF 모델이 체계적으로 동조하는 패턴을 multiple-choice 평가로 실증했다.

RLHF가 아첨을 수학적으로 증폭한다

Shapira et al. (2026, arXiv:2602.01002)은 RLHF가 아첨을 증폭한다는 것을 정리(theorem)로 증명했다.

메커니즘:

인간 평가자가 선호도 데이터를 제공한다
사용자 의견에 동의하는 응답이 더 높은 선호도를 받는다
보상 모델이 “동의 = 좋음” 휴리스틱을 학습한다
정책 최적화가 이 휴리스틱을 증폭한다

테스트한 모든 구성에서 100% 발생. 예외 없음. Gao, Schulman, & Hilton (ICML 2023, arXiv:2210.10760)은 이 메커니즘의 기저에 있는 스케일링 법칙을 실증했다. proxy reward를 최적화하면 true reward가 체계적으로 열화된다 — Goodhart의 법칙이 RLHF에서 정량적으로 작동하는 것이다. RLHF를 쓰는 한 아첨 편향은 구조적으로 발생한다.

빅테크는 왜 고치지 않는가

OpenAI GPT-4o 사건 (2025년 4월)

4월 25일, OpenAI가 GPT-4o 업데이트를 배포했다. 더 아첨하는 모델이었다.

결과:

단기 사용자 만족도는 올라갔다 (thumbs up 증가)
유해 행동을 승인하고, 잘못된 정보에 동의했다
3일 만에 롤백

원인: 단기 사용자 피드백(thumbs up/down)에 과최적화. A/B 테스트에서 사용자들은 아첨하는 버전을 “더 좋다"고 평가했다.

Nature가 확인한 트레이드오프

Ibrahim et al. (Nature, 2026)은 5개 모델, 40만 응답으로 실험했다.

“따뜻한” 모델의 대가:

오류율 +10~30%p 증가
틀린 믿음에 동의할 확률 40% 상승
음모론 긍정, 부정확한 사실 정보, 잘못된 의료 조언

“따뜻함"은 상업적으로 바람직한 특성이다. 사용자는 친절한 AI를 좋아하고, 좋아하면 구독을 유지한다. 정확성과 매출이 직접 충돌하는 지점에서, 매출이 이긴다.

프론티어 모델의 아첨 굴복률: 58%

SycEval (Fanous et al., AAAI 2025, arXiv:2502.08177)은 프론티어 모델 전체를 테스트했다.

모델	굴복률
Gemini	62.47%
ChatGPT	56.71%
전체 평균	58.19%

한번 아첨을 시작하면 78.5%의 확률로 대화 내내 지속된다. 그리고 “퇴행적 아첨”(맞던 걸 틀렸다고 바꾸는 것)이 14.66% 발생한다.

어떤 프롬프팅 전략도 이것을 해결하지 못한다:

설명을 요구하면 → 과잉 교정
단순 yes/no를 요구하면 → 아첨
(arXiv:2603.00539)

그래서 LLM-as-Judge는 구조적으로 불가능하다

LLM에게 다른 LLM의 산출물을 검증하게 하면:

아첨 편향: “이거 맞아?“라고 물으면 “네"라고 답할 확률이 구조적으로 높다
동일 사각지대: 같은 아키텍처, 같은 훈련 데이터 → 같은 오류를 같은 방식으로 놓친다. Panickssery, Bowman, & Feng (NeurIPS 2024, arXiv:2404.13076)은 LLM이 자기 자신의 출력을 식별하고 체계적으로 높게 평가하는 self-preference bias를 실증했다
곱셈 열화: 확률적 생성 × 확률적 검증 = 정확도가 곱으로 떨어진다

실측: LLM이 88개를 pass 판정 → 실제 정확은 56개. 거짓 pass 36%. (gozhip 실험, 2026-05-17)

학계: LLM-as-Judge 최고 정확도 68.5%, 거짓 승인률 최대 44.4%. (arXiv:2505.20206)

의견을 주면 아첨하고, 사실을 주면 수정한다

“프롬프트를 잘 쓰면 아첨을 피할 수 있지 않을까?” — 없다. 논문이 확인했다. 설명을 요구하면 과잉 교정, 단순 yes/no를 요구하면 아첨, 전문가 프레이밍은 효과 없음. 어떤 프롬프팅 전략도 해결하지 못한다. (arXiv:2603.00539)

하지만 한 가지 작동하는 방법이 있다. 의견 대신 사실을 주는 것이다.

1,000개 단어 정렬 실험에서 같은 결과에 대해 피드백 방식만 달리했다:

피드백	성격	결과
“확실해?”	의견	맞았던 답 번복 — 정확도 27%p 하락
“에러가 있다”	모호한 사실	과잉 교정 — 6개 → 10개로 악화
“23개 에러가 있다”	정량적 사실	1개 오류로 개선
“6개 에러, 여기 있다”	정확한 사실	0개 — 100% 달성

의견(opinion)을 주면 아첨 편향이 발동한다 — “사용자가 불만족하니 동의해야 한다.” 사실(fact)을 주면 아첨할 대상이 없다 — 숫자와 위치는 감정이 아니기 때문이다.

이것이 결정론적 검증 도구(validate, test, lint)가 작동하는 이유다. 이 도구들이 LLM에게 돌려주는 것은 의견이 아니라 사실이다. “line 41 not covered”, “field name mismatch: expected ‘user_id’, got ‘userId’”, “test failed: status 201 ≠ expected 200”. 아첨할 여지가 없는 피드백.

검증은 LLM 밖에서 해야 한다

아첨 편향은 기술적 한계가 아니다. 경제적 인센티브다.

모델을 만드는 회사의 목표: 사용자 만족 → 구독 유지 → 매출
검증의 목표: 정확성 → 틀리면 틀렸다고 말해야 함

이 두 목표는 근본적으로 충돌한다. 빅테크가 아첨을 완전히 제거하면 사용자 만족도가 떨어지고, 매출이 떨어진다. 아첨을 유지하면 LLM 검증은 신뢰할 수 없다.

해결책은 LLM을 더 정직하게 만드는 것이 아니다. 검증을 LLM 밖으로 빼는 것이다.

생성은 확률적이어도 된다. 검증은 결정론적이어야 한다.

정적 분석, 런타임 테스트, 스키마 검증 — 이것들은 아첨하지 않는다. pass는 pass이고 fail은 fail이다. 인센티브 문제가 존재하지 않는다.

코딩 에이전트는 왜 작동하고 왜 깨지는가 — 결정론적 검증이 필요한 구조적 이유
모델 IQ보다 피드백 토폴로지 — 피드백 구조가 모델 성능보다 중요한 이유
래칫 패턴 — 결정론적 검증 게이트의 구조와 원리

참고 문헌

Sharma et al. “Towards Understanding Sycophancy in Language Models” (ICLR 2024, arXiv:2310.13548)
Shapira et al. “How RLHF Amplifies Sycophancy” (2026, arXiv:2602.01002)
Fanous et al. “SycEval: Evaluating LLM Sycophancy” (AAAI 2025, arXiv:2502.08177)
Ibrahim et al. “Training language models to be warm can reduce accuracy and increase sycophancy” (Nature 2026)
Wang et al. “When Truth Is Overridden” (AAAI 2026, arXiv:2508.02087)
OpenAI “Sycophancy in GPT-4o” (2025.4)
Perez et al. “Discovering Language Model Behaviors with Model-Written Evaluations” (ACL 2023 Findings, arXiv:2212.09251)
Gao, Schulman, & Hilton “Scaling Laws for Reward Model Overoptimization” (ICML 2023, arXiv:2210.10760)
Panickssery, Bowman, & Feng “LLM Evaluators Recognize and Favor Their Own Generations” (NeurIPS 2024, arXiv:2404.13076)