GEO: AI가 당신의 글을 인용하게 만드는 법 Image generated by Google Gemini

GEO(Generative Engine Optimization)는 ChatGPT, Perplexity, Google AI Overview 같은 AI 검색 엔진이 당신의 콘텐츠를 인용하도록 최적화하는 전략이다. 전통 SEO가 구글 순위를 올리는 게임이었다면, GEO는 AI가 생성한 답변에 출처로 포함되는 게임이다. AEO(Answer Engine Optimization), AI SEO, LLM 검색 최적화라고도 불린다.

검색이 바뀌었다 — AI SEO 시대의 시작

구글에 검색하면 파란 링크 10개가 나왔다. 이제는 AI가 답을 생성한다. ChatGPT, Perplexity, Google AI Overview — 사용자는 링크를 클릭하지 않고 답을 얻는다.

Gartner는 2026년까지 전통 검색 볼륨이 25% 감소할 것으로 예측한다. 미국 인구의 31.3%가 이미 생성형 AI 검색을 사용한다.

AI 답변에 인용되지 않는 콘텐츠는 제로클릭 시대에 도달할 수 없다. GEO는 이 문제의 해법이다.

GEO vs SEO vs AEO — 무엇이 다른가

전통 SEO는 구글 순위 게임이었다. 키워드, 백링크, 메타 태그. GEO는 다른 게임이다.

SEOGEO
목표SERP 순위AI 응답 내 인용
성공 지표노출, 클릭, CTR인용률, 브랜드 추천 빈도
핵심 신호백링크, 키워드엔티티 명확성, 출처 인용, 교차 플랫폼 일관성
트래픽 모델클릭 → 사이트 방문제로클릭 (방문 없이 소비)

놀라운 데이터가 있다. AI Overview 인용의 83%가 구글 오가닉 상위 10위 밖 페이지에서 나온다. ChatGPT 최다 인용 페이지의 28.3%는 구글에서 오가닉 가시성이 0이다. 전통 SEO 순위와 AI 인용은 별개 게임이다.

그러면 AI는 무엇을 인용하는가?

1. 인프라: Hugo + CloudFront + robots.txt + llms.txt

AI 크롤러가 당신의 콘텐츠에 도달할 수 없으면 인용도 없다. 첫 번째 조건은 기술 인프라다.

정적 사이트 생성기(Hugo) + S3 + CloudFront

  • 정적 HTML은 크롤러에게 가장 빠르고 깨끗한 소스다. SPA는 자바스크립트 렌더링이 필요해서 AI 크롤러가 건너뛰는 경우가 많다
  • CloudFront CDN은 전 세계 어디서든 빠른 응답. AI 크롤러도 속도를 신호로 사용한다
  • Hugo의 다국어 빌드는 hreflang 태그를 자동 생성한다. 12개 언어 = 12개 진입점

AI 전용 파일

XML 사이트맵은 기본이다. 하지만 GEO 시대에는 두 가지가 더 필요하다:

  1. llms.txt — 사이트 루트에 배치하는 Markdown 기반 파일. robots.txt가 “어디를 크롤링하라"면, llms.txt는 “무엇이 중요한 콘텐츠인지” 가이드한다. Anthropic, Hugging Face, Perplexity가 선행 채택
  2. Schema.org JSON-LD — Article, Person, SoftwareSourceCode 스키마. AI 크롤러에게 “이 페이지가 뭔지” 치트시트를 건네는 것

robots.txt에서 AI 크롤러 명시적 허용:

2026년 기준 주요 AI 크롤러 봇은 5가지 카테고리로 나뉜다:

카테고리설명차단 시 영향
훈련 크롤러LLM 훈련 데이터 수집모델의 장기 지식에서 제외
검색 인덱서AI 검색 답변용 인덱스AI 검색 결과에서 사라짐
사용자 트리거 인출사용자 질문 시 실시간 페치대화 중 참조 불가
에이전트AI가 사용자 대신 웹 탐색에이전트 서비스에서 제외
데이터 수집대규모 웹 데이터 수집해당 데이터셋에서 제외

주요 봇 목록:

소유자용도
GPTBotOpenAI모델 훈련
OAI-SearchBotOpenAIChatGPT 검색 인덱싱
ChatGPT-UserOpenAI사용자 실시간 인출
ClaudeBotAnthropic모델 훈련
Claude-SearchBotAnthropicClaude 검색 인덱싱
Claude-UserAnthropic사용자 실시간 인출
Google-ExtendedGoogleGemini 훈련
Applebot-ExtendedAppleApple Intelligence 훈련
Meta-ExternalAgentMetaLlama 훈련 + Meta AI
PerplexityBotPerplexityAI 검색
bingbotMicrosoftBing + Copilot
CCBotCommon Crawl오픈 데이터셋 (거의 모든 LLM이 사용)
BytespiderByteDanceDoubao 훈련 (robots.txt 무시, 차단 권장)

핵심: 훈련 봇과 검색/인출 봇을 구분해야 한다. 훈련 봇을 차단해도 검색 봇을 허용하면 AI 답변에는 인용된다. 둘 다 차단하면 AI 세계에서 사라진다.

2. 사이트맵과 hreflang: AI가 읽는 의미론적 지도

전통 사이트맵은 URL 목록이다. GEO 시대의 사이트맵은 의미론적 지도다.

<url>
  <loc>https://www.parkjunwoo.com/opinion/reins-engineering/</loc>
  <lastmod>2026-05-27</lastmod>
  <changefreq>weekly</changefreq>
</url>

여기에 더해:

  • hreflang 링크: 같은 글의 12개 언어 버전이 서로 연결. AI는 다국어 권위를 높이 평가한다
  • lastmod 정확성: AI 인용의 76.4%가 최근 30일 내 업데이트된 페이지에서 나온다. 3개월 미만 콘텐츠가 인용될 확률 3배. lastmod를 거짓으로 쓰면 역효과
  • 카테고리 구조: /opinion/, /tech/, /lecture/ — 평면 구조보다 의미 있는 계층이 AI에게 맥락을 준다

Google Search Console에 사이트맵을 제출하는 건 기본이다. 하지만 이것만으로는 부족하다.

3. Wayback Machine과 Google Search Console: 콘텐츠 원본 증명

Wayback Machine은 1996년부터 웹의 스냅샷을 보관한다. AI에게 이것은 시간적 기억이다.

왜 중요한가:

  • 당신이 2026년 5월에 “Ratchet Pattern"을 처음 정의한 글을 올렸다면, Wayback Machine에 그 스냅샷이 남는다
  • 6개월 뒤 누군가 같은 개념을 더 큰 플랫폼에서 쓰더라도, 시간적 증거가 원저작자를 가리킨다
  • AI가 출처를 결정할 때, 최초 발행 시점은 간접적 권위 신호로 작용한다

실행:

  1. 새 글 발행 후 Wayback Machine에 수동 저장 요청 (web.archive.org/save/)
  2. Google Search Console에 URL 인덱싱 요청
  3. 두 곳 모두에 시간 도장이 찍힌다

주의: 2026년 현재 241개 사이트가 Wayback Machine 접근을 차단했다(AI 기업의 저작권 우회 우려). 개인 블로그에게 이것은 오히려 기회다 — 대형 매체가 빠진 아카이브에서 개인 콘텐츠의 상대적 비중이 올라간다.

4. 출처 인용과 토픽 권위: LLM이 신뢰하는 콘텐츠의 조건

GEO 원본 논문(Aggarwal et al., KDD 2024)이 밝힌 가시성 향상 전략 상위 3개:

전략가시성 향상
인용문 추가 (Quotation)+41%
통계 추가 (Statistics)+32%
출처 명시 (Cite Sources)+30%

키워드 스터핑은 GEO에서 무의미하거나 역효과다. AI는 키워드가 아니라 근거를 본다.

논문 인용이 중요한 이유:

  • AI는 “주장"과 “근거 있는 주장"을 구분한다. “개발자 시간의 42%가 기술 부채에 소모된다"는 주장이다. “개발자 시간의 42%가 기술 부채에 소모된다 (Stripe, The Developer Coefficient, 2018)“는 근거다
  • 근거가 있는 문장은 AI가 자신의 응답에 인용할 때 신뢰 비용이 낮다. 근거 없는 문장은 AI가 검증해야 하므로 건너뛴다
  • 4개 이상 AI 플랫폼에 인용된 사이트는 ChatGPT 등장률이 2.8배 높다

연관글 관리와 태깅:

태그는 사람을 위한 것이 아니다. AI를 위한 것이다.

  • 일관된 태그 체계: “Reins Engineering”, “Ratchet Pattern”, “SSOT” — 같은 태그가 여러 글에 걸쳐 반복되면 AI는 토픽 권위(topical authority)를 인식한다
  • 내부 링크: 글 안에서 관련 글을 링크하면 AI 크롤러가 토픽 클러스터를 파악한다. 고립된 글보다 연결된 글이 인용된다
  • 교차 인용: 자기 글끼리 인용하는 것도 유효하다. “이 개념의 기초는 Ratchet Pattern에서 정의했다”

5. 검색 탐지 범위를 넓히는 법

좋은 글을 써도 검색에 안 잡히면 존재하지 않는 것과 같다. 탐지 범위를 넓히는 세 가지 방법:

고유 용어를 만들어 소유하라

“ratchet pattern"은 기계공학에서 이미 쓰는 일반 용어다. 구글 순위 4에서 경쟁해야 한다. “reins engineering"은 이 사이트에서 만든 고유 용어다. 순위 2에서 독점한다. 검색하는 사람 100%가 이 글을 찾는다.

고유 용어의 위력은 실제 데이터가 보여준다:

  • “reins engineering”: 24시간 52노출, 15클릭, CTR 29%
  • “ratchet pattern”: 월간 5노출, 1클릭

같은 사이트, 같은 품질. 차이는 용어의 소유권이다.

H2에 검색 synonym을 심어라

“GEO ≠ SEO"보다 “GEO vs SEO vs AEO — 무엇이 다른가"가 더 많은 쿼리를 잡는다. 사람들은 “GEO"를 모르지만 “AI SEO”, “ChatGPT SEO”, “LLM 검색 최적화"는 검색한다. H2에 이 동의어를 자연스럽게 넣으면 팬아웃된 쿼리에 걸린다.

도입부에 문제-질문형 문장을 넣어라

글 시작 부분에 독자가 겪는 문제를 구체적으로 언급한다:

바이브 코딩으로 만든 앱이 3개월 만에 무너졌다면, AI가 기존 로직을 덮어쓰는 드리프트 문제를 겪고 있다면, API 계약을 코드 변경으로부터 보호하고 싶다면 —

이 문장이 하는 일: “바이브 코딩 앱 무너짐”, “AI 로직 덮어씀”, “API 계약 보호"가 전부 별도의 검색 진입점이 된다. 메타 서술이 아니라 본문에 녹아드는 구조라 자연스럽다. 각 조건절이 실제 사용자가 구글에 치는 쿼리와 일치한다.

세 방법 모두 비용이 0이고, 글의 품질을 해치지 않으면서 검색 도달 범위를 수배 넓힌다.

6. X, Reddit, Hacker News: 브랜드 검색 볼륨을 만드는 소셜 전략

X/Twitter의 이용약관은 제3자 AI 훈련을 명시적으로 금지한다. 즉, X에 올린 글이 ChatGPT 훈련 데이터에 직접 들어가지는 않는다.

하지만 소셜 활동은 간접 경로로 AI 가시성에 기여한다:

브랜드 검색 볼륨이 LLM 인용의 최강 예측 변수다 (상관계수 0.334, 백링크보다 높음).

경로는 이렇다:

X 스레드 → 사람들이 "yongol"을 구글에 검색 → 브랜드 검색 볼륨 상승 → AI가 "yongol"을 인용할 가치 있는 엔티티로 인식

실제로 parkjunwoo.com의 5월 데이터가 이를 보여준다:

  • “yongol” 구글 검색: 14회 노출, 5회 클릭, 평균 순위 3.1
  • yongol GitHub 클론: 유니크 316명
  • 유입 경로: t.co(X) 4명 → GitHub → 블로그

X에서 직접 링크를 공유하는 것보다, 개념을 검색하게 만드는 것이 GEO에 더 효과적이다.

earned media의 위력:

전체 LLM 인용의 48%가 earned media(언론, 리뷰, 제3자 언급)에서 나온다. 자사 콘텐츠는 23%에 불과하다. 즉, 다른 사람이 당신을 언급하게 만드는 것이 자기 글을 최적화하는 것보다 2배 효과적이다.

Reddit, Hacker News, dev.to에서 프로젝트가 언급되면 → 해당 플랫폼의 AI 크롤링을 통해 → LLM이 엔티티를 학습한다.

체크리스트

인프라
├── Hugo 정적 사이트 + S3 + CloudFront
├── robots.txt에 AI 크롤러 허용
├── llms.txt 생성 (핵심 콘텐츠 큐레이션)
├── Schema.org JSON-LD (Article, Person)
└── XML 사이트맵 + hreflang

콘텐츠
├── 모든 주장에 출처 명시 (+30% 가시성)
├── 통계 인라인 삽입 (+32%)
├── 비교 테이블 사용 (AI 파싱 최적)
├── lastmod 정확하게 유지 (30일 내 업데이트 → 인용률 76.4%)
└── 3개월 이상 된 글 정기 업데이트 (인용 확률 3배)

연결
├── 일관된 태그 체계 (토픽 권위)
├── 내부 링크 (토픽 클러스터)
├── 논문/외부 출처 인용 (신뢰 비용 절감)
└── 새 글 → Wayback Machine + GSC 제출

탐지 범위
├── 고유 용어 만들어 소유 (경쟁 0, 독점)
├── H2에 검색 synonym 삽입 (팬아웃 쿼리 포착)
└── 도입부 문제-질문형 문장 (검색 진입점 확대)

소셜
├── X 스레드로 개념 검색 유도 (브랜드 검색 볼륨)
├── Reddit/HN에서 earned media 발생
└── 링크 직접 공유보다 개념 확산이 GEO에 유리

이 사이트의 GEO 실행 사례

이 글에서 설명한 전략은 parkjunwoo.com에서 실제로 실행 중이다:

  • robots.txt — 25개 AI 크롤러 명시적 허용, Bytespider 차단
  • llms.txt — 핵심 콘텐츠를 AI 컨텍스트 윈도우에 맞게 큐레이션
  • Reins Engineering 글 모음 — 토픽 클러스터 허브
  • 12개 언어 다국어 빌드 — hreflang 자동 생성, 언어별 진입점
  • 모든 글에 논문 출처 — 인라인 통계 + 학술 인용으로 팩트 밀도 확보
  • 발행 즉시 Wayback Machine + GSC 제출 — 시간적 원본 증명

관련글

출처

논문

데이터 보고서