GEO: Cómo hacer que la IA cite tu contenido

GEO: Cómo hacer que la IA cite tu contenido Image generated by Google Gemini

GEO (Generative Engine Optimization) es una estrategia para optimizar el contenido de modo que motores de búsqueda con IA como ChatGPT, Perplexity y Google AI Overview lo citen. Si el SEO tradicional era el juego de escalar posiciones en Google, GEO es el juego de ser incluido como fuente en las respuestas generadas por IA. También se conoce como AEO (Answer Engine Optimization), AI SEO u optimización para búsquedas LLM.

La búsqueda ha cambiado — El inicio de la era del AI SEO

Buscabas en Google y aparecían 10 enlaces azules. Ahora la IA genera la respuesta. ChatGPT, Perplexity, Google AI Overview — los usuarios obtienen respuestas sin hacer clic en ningún enlace.

Gartner predice que para 2026 el volumen de búsqueda tradicional disminuirá un 25%. El 31.3% de la población estadounidense ya usa búsqueda con IA generativa.

El problema es este: Si tu contenido no es citado en las respuestas generadas por IA, es como si no existieras.

Generative Engine Optimization (GEO) son las reglas de este nuevo juego.

GEO vs SEO vs AEO — Qué los diferencia

El SEO tradicional era un juego de rankings en Google. Palabras clave, backlinks, meta tags. GEO es un juego diferente.

	SEO	GEO
Objetivo	Ranking en SERP	Citación en respuestas de IA
Métrica de éxito	Impresiones, clics, CTR	Tasa de citación, frecuencia de recomendación de marca
Señal clave	Backlinks, palabras clave	Claridad de entidad, citación de fuentes, consistencia multiplataforma
Modelo de tráfico	Clic → visita al sitio	Zero-click (consumo sin visita)

Hay datos sorprendentes. El 83% de las citaciones de AI Overview provienen de páginas fuera del top 10 orgánico de Google. El 28.3% de las páginas más citadas por ChatGPT tienen visibilidad orgánica 0 en Google. El ranking SEO tradicional y las citaciones de IA son juegos separados.

Entonces, ¿qué cita la IA?

1. Infraestructura: Hugo + CloudFront + robots.txt + llms.txt

Si los crawlers de IA no pueden llegar a tu contenido, no habrá citaciones. La primera condición es la infraestructura técnica.

Generador de sitios estáticos (Hugo) + S3 + CloudFront

El HTML estático es la fuente más rápida y limpia para los crawlers. Las SPA requieren renderizado JavaScript, y los crawlers de IA suelen omitirlas
CloudFront CDN asegura respuestas rápidas desde cualquier parte del mundo. Los crawlers de IA también usan la velocidad como señal
El build multilingüe de Hugo genera automáticamente etiquetas hreflang. 12 idiomas = 12 puntos de entrada

Sitemap

El sitemap XML es básico. Pero en la era GEO se necesitan dos cosas más:

llms.txt — Un archivo Markdown ubicado en la raíz del sitio. Si robots.txt dice “dónde rastrear”, llms.txt guía sobre “qué contenido es importante”. Anthropic, Hugging Face y Perplexity lo adoptaron tempranamente
Schema.org JSON-LD — Schemas Article, Person, SoftwareSourceCode. Es como entregarle al crawler de IA una hoja de referencia sobre “qué es esta página”

Permitir explícitamente crawlers de IA en robots.txt:

A 2026, los principales bots crawlers de IA se dividen en 5 categorías:

Categoría	Descripción	Impacto al bloquear
Crawlers de entrenamiento	Recopilan datos de entrenamiento para LLM	Exclusión del conocimiento a largo plazo del modelo
Indexadores de búsqueda	Índice para respuestas de búsqueda IA	Desaparición de resultados de búsqueda IA
Recuperación por usuario	Fetch en tiempo real ante preguntas	No referenciable en conversaciones
Agentes	IA que navega la web por el usuario	Exclusión de servicios de agentes
Recopilación de datos	Recopilación masiva de datos web	Exclusión del dataset correspondiente

Lista de bots principales:

Bot	Propietario	Uso
GPTBot	OpenAI	Entrenamiento de modelos
OAI-SearchBot	OpenAI	Indexación de búsqueda ChatGPT
ChatGPT-User	OpenAI	Recuperación en tiempo real del usuario
ClaudeBot	Anthropic	Entrenamiento de modelos
Claude-SearchBot	Anthropic	Indexación de búsqueda Claude
Claude-User	Anthropic	Recuperación en tiempo real del usuario
Google-Extended	Google	Entrenamiento de Gemini
Applebot-Extended	Apple	Entrenamiento de Apple Intelligence
Meta-ExternalAgent	Meta	Entrenamiento de Llama + Meta AI
PerplexityBot	Perplexity	Búsqueda IA
bingbot	Microsoft	Bing + Copilot
CCBot	Common Crawl	Dataset abierto (usado por casi todos los LLM)
Bytespider	ByteDance	Entrenamiento de Doubao (ignora robots.txt, se recomienda bloquear)

Clave: Hay que distinguir entre bots de entrenamiento y bots de búsqueda/recuperación. Aunque bloquees los bots de entrenamiento, si permites los de búsqueda, seguirás siendo citado en las respuestas de IA. Si bloqueas ambos, desapareces del mundo de la IA.

llms.txt — Si robots.txt dice “dónde rastrear”, llms.txt guía sobre “qué contenido es importante”. Basado en Markdown, ubicado en la raíz del sitio. Anthropic, Hugging Face y Perplexity lo adoptaron tempranamente. Elimina el ruido de menús/anuncios/scripts y proporciona contenido refinado adaptado a la ventana de contexto de la IA.

2. Sitemaps y hreflang: el mapa semántico que lee la IA

Un sitemap tradicional es una lista de URLs. El sitemap de la era GEO es un mapa semántico.

<url>
  <loc>https://www.parkjunwoo.com/opinion/reins-engineering/</loc>
  <lastmod>2026-05-27</lastmod>
  <changefreq>weekly</changefreq>
</url>

Además de esto:

Enlaces hreflang: las 12 versiones idiomáticas del mismo artículo se interconectan. La IA valora altamente la autoridad multilingüe
Precisión de lastmod: el 76.4% de las citaciones de IA provienen de páginas actualizadas en los últimos 30 días. El contenido de menos de 3 meses tiene 3 veces más probabilidad de ser citado. Falsificar lastmod produce el efecto contrario
Estructura de categorías: /opinion/, /tech/, /lecture/ — una jerarquía significativa proporciona más contexto a la IA que una estructura plana

Enviar el sitemap a Google Search Console es lo básico. Pero no es suficiente por sí solo.

3. Wayback Machine y Google Search Console: prueba de originalidad del contenido

Wayback Machine archiva instantáneas de la web desde 1996. Para la IA, esto es memoria temporal.

Por qué importa:

Si publicaste el artículo que definió por primera vez “Ratchet Pattern” en mayo de 2026, Wayback Machine conserva esa instantánea
Aunque 6 meses después alguien use el mismo concepto en una plataforma mayor, la evidencia temporal señala al autor original
Cuando la IA determina la fuente, el momento de primera publicación actúa como señal indirecta de autoridad

Ejecución:

Después de publicar un artículo nuevo, solicitar manualmente el guardado en Wayback Machine (web.archive.org/save/)
Solicitar la indexación de la URL en Google Search Console
Ambos lugares quedan sellados con marca temporal

Nota: a 2026, 241 sitios han bloqueado el acceso a Wayback Machine (por preocupaciones sobre elusión de derechos de autor por empresas de IA). Para blogs personales, esto es más bien una oportunidad — al retirarse los grandes medios del archivo, el peso relativo del contenido personal aumenta.

4. Citación de fuentes y autoridad temática: las condiciones del contenido que los LLM confían

Las tres principales estrategias de mejora de visibilidad según el paper original de GEO (Aggarwal et al., KDD 2024):

Estrategia	Mejora de visibilidad
Agregar citas textuales (Quotation)	+41%
Agregar estadísticas (Statistics)	+32%
Citar fuentes (Cite Sources)	+30%

El keyword stuffing es irrelevante o contraproducente en GEO. La IA no busca palabras clave, busca evidencia.

Por qué importa la citación académica:

La IA distingue entre “afirmaciones” y “afirmaciones con evidencia”. “El 42% del tiempo de los desarrolladores se consume en deuda técnica” es una afirmación. “El 42% del tiempo de los desarrolladores se consume en deuda técnica (Stripe, The Developer Coefficient, 2018)” es evidencia
Las frases con evidencia tienen un costo de confianza menor cuando la IA las cita en sus respuestas. Las frases sin evidencia requieren verificación, así que la IA las omite
Los sitios citados por 4 o más plataformas de IA tienen 2.8 veces más apariciones en ChatGPT

Gestión de artículos relacionados y etiquetado:

Las etiquetas no son para las personas. Son para la IA.

Sistema de etiquetas consistente: “Reins Engineering”, “Ratchet Pattern”, “SSOT” — cuando las mismas etiquetas se repiten en múltiples artículos, la IA reconoce autoridad temática (topical authority)
Enlaces internos: enlazar artículos relacionados dentro del texto permite que los crawlers de IA identifiquen clusters temáticos. Los artículos conectados se citan más que los aislados
Citación cruzada: citarse entre artículos propios también es válido. “La base de este concepto se definió en Ratchet Pattern”

5. X, Reddit, Hacker News: estrategias sociales para generar volumen de búsqueda de marca

Los términos de uso de X/Twitter prohíben explícitamente el entrenamiento de IA de terceros. Es decir, lo que publicas en X no entra directamente en los datos de entrenamiento de ChatGPT.

Pero la actividad social contribuye a la visibilidad ante la IA por vía indirecta:

El volumen de búsqueda de marca es el predictor más fuerte de citación por LLM (coeficiente de correlación 0.334, superior a los backlinks).

El camino es este:

Hilo en X → La gente busca "yongol" en Google → Sube el volumen de búsqueda de marca → La IA reconoce "yongol" como una entidad digna de citar

Los datos de mayo de parkjunwoo.com lo demuestran:

Búsqueda de “yongol” en Google: 14 impresiones, 5 clics, posición promedio 3.1
Clones del GitHub de yongol: 316 usuarios únicos
Ruta de tráfico: t.co (X) 4 personas → GitHub → blog

Más que compartir enlaces directamente en X, hacer que la gente busque el concepto es más efectivo para GEO.

El poder del earned media:

El 48% de todas las citaciones de LLM provienen de earned media (prensa, reseñas, menciones de terceros). El contenido propio representa solo el 23%. Es decir, lograr que otros te mencionen es 2 veces más efectivo que optimizar tus propios artículos.

Cuando un proyecto se menciona en Reddit, Hacker News o dev.to → a través del crawling de IA de esas plataformas → el LLM aprende la entidad.

Lista de verificación

Infraestructura
├── Sitio estático Hugo + S3 + CloudFront
├── Permitir crawlers de IA en robots.txt
├── Crear llms.txt (curación de contenido clave)
├── Schema.org JSON-LD (Article, Person)
└── Sitemap XML + hreflang

Contenido
├── Citar fuentes en todas las afirmaciones (+30% visibilidad)
├── Insertar estadísticas inline (+32%)
├── Usar tablas comparativas (parsing óptimo para IA)
├── Mantener lastmod con precisión (actualización en 30 días → tasa de citación 76.4%)
└── Actualizar periódicamente artículos de más de 3 meses (3x probabilidad de citación)

Conexión
├── Sistema de etiquetas consistente (autoridad temática)
├── Enlaces internos (clusters temáticos)
├── Citar papers/fuentes externas (reducir costo de confianza)
└── Artículo nuevo → Wayback Machine + envío a GSC

Social
├── Hilos en X para inducir búsqueda del concepto (volumen de búsqueda de marca)
├── Generar earned media en Reddit/HN
└── Difundir conceptos es más favorable para GEO que compartir enlaces directos

Implementación de GEO en este sitio

Las estrategias descritas en este artículo se ejecutan activamente en parkjunwoo.com:

robots.txt — Permiso explícito para 25 crawlers de IA, bloqueo de Bytespider
llms.txt — Curación de contenido clave adaptado a la ventana de contexto de la IA
Colección de artículos Reins Engineering — Hub de cluster temático
Build multilingüe en 12 idiomas — Generación automática de hreflang, un punto de entrada por idioma
Fuentes académicas en todos los artículos — Estadísticas inline + citaciones académicas para densidad factual
Envío inmediato a Wayback Machine + GSC al publicar — Prueba de originalidad temporal

Fuentes

Papers

Aggarwal et al., GEO: Generative Engine Optimization, KDD 2024 — Citas textuales +41%, estadísticas +32%, citación de fuentes +30% de mejora de visibilidad
Xu et al., Measuring Google AI Overviews (2026) — Análisis de 55,393 consultas. 30% de los dominios citados por AIO no están en la primera página orgánica
Fang et al., Recency Bias in LLM-Based Reranking, SIGIR-AP 2025 — Los 7 modelos promueven consistentemente el contenido más reciente
Zhang et al., Citation Selection to Citation Absorption (2026) — Comparación cuantitativa de patrones de citación de ChatGPT/Google AIO/Perplexity
Algaba et al., LLMs Reflect Human Citation Patterns, NAACL 2025 — Los LLM prefieren más fuertemente los papers con más citaciones (Matthew effect)
arXiv:2602.18455, AI Search Impact on Wikipedia Traffic (2026) — AIO reduce el tráfico de Wikipedia en 15% (análisis causal DID)
Yu et al., Structural Feature Engineering for GEO (2026) — La estructura del contenido en sí afecta la probabilidad de citación
Tian et al., Diagnosing Citation Failures in GEO (2026) — Modificar el 5% del contenido mejora la tasa de citación en 40%
Baack, Critical Analysis of Common Crawl, FAccT 2024 — Componentes clave y sesgos de los datos de entrenamiento de LLM
Strauss et al., The Attribution Crisis in LLM Search (2025) — El 92% de Gemini no proporciona citaciones clicables

Informes de datos

Ahrefs, Do AI Assistants Prefer Fresh Content? (2025) — Análisis de 17 millones de citaciones de IA
SparkToro/Datos, State of Search Q1 2026 — Seguimiento de cuota de búsqueda IA basado en clickstream
GitClear, AI Copilot Code Quality 2025 — Análisis de 210 millones de líneas
Gartner — Predicción de disminución del 25% en volumen de búsqueda tradicional para 2026
llms.txt propuesta de estándar — Search Engine Land