GEO: Cómo hacer que la IA cite tu contenido Image generated by Google Gemini

GEO (Generative Engine Optimization) es una estrategia para optimizar el contenido de modo que motores de búsqueda con IA como ChatGPT, Perplexity y Google AI Overview lo citen. Si el SEO tradicional era el juego de escalar posiciones en Google, GEO es el juego de ser incluido como fuente en las respuestas generadas por IA. También se conoce como AEO (Answer Engine Optimization), AI SEO u optimización para búsquedas LLM.

La búsqueda ha cambiado — El inicio de la era del AI SEO

Buscabas en Google y aparecían 10 enlaces azules. Ahora la IA genera la respuesta. ChatGPT, Perplexity, Google AI Overview — los usuarios obtienen respuestas sin hacer clic en ningún enlace.

Gartner predice que para 2026 el volumen de búsqueda tradicional disminuirá un 25%. El 31.3% de la población estadounidense ya usa búsqueda con IA generativa.

El problema es este: Si tu contenido no es citado en las respuestas generadas por IA, es como si no existieras.

Generative Engine Optimization (GEO) son las reglas de este nuevo juego.

GEO vs SEO vs AEO — Qué los diferencia

El SEO tradicional era un juego de rankings en Google. Palabras clave, backlinks, meta tags. GEO es un juego diferente.

SEOGEO
ObjetivoRanking en SERPCitación en respuestas de IA
Métrica de éxitoImpresiones, clics, CTRTasa de citación, frecuencia de recomendación de marca
Señal claveBacklinks, palabras claveClaridad de entidad, citación de fuentes, consistencia multiplataforma
Modelo de tráficoClic → visita al sitioZero-click (consumo sin visita)

Hay datos sorprendentes. El 83% de las citaciones de AI Overview provienen de páginas fuera del top 10 orgánico de Google. El 28.3% de las páginas más citadas por ChatGPT tienen visibilidad orgánica 0 en Google. El ranking SEO tradicional y las citaciones de IA son juegos separados.

Entonces, ¿qué cita la IA?

1. Infraestructura: Hugo + CloudFront + robots.txt + llms.txt

Si los crawlers de IA no pueden llegar a tu contenido, no habrá citaciones. La primera condición es la infraestructura técnica.

Generador de sitios estáticos (Hugo) + S3 + CloudFront

  • El HTML estático es la fuente más rápida y limpia para los crawlers. Las SPA requieren renderizado JavaScript, y los crawlers de IA suelen omitirlas
  • CloudFront CDN asegura respuestas rápidas desde cualquier parte del mundo. Los crawlers de IA también usan la velocidad como señal
  • El build multilingüe de Hugo genera automáticamente etiquetas hreflang. 12 idiomas = 12 puntos de entrada

Sitemap

El sitemap XML es básico. Pero en la era GEO se necesitan dos cosas más:

  1. llms.txt — Un archivo Markdown ubicado en la raíz del sitio. Si robots.txt dice “dónde rastrear”, llms.txt guía sobre “qué contenido es importante”. Anthropic, Hugging Face y Perplexity lo adoptaron tempranamente
  2. Schema.org JSON-LD — Schemas Article, Person, SoftwareSourceCode. Es como entregarle al crawler de IA una hoja de referencia sobre “qué es esta página”

Permitir explícitamente crawlers de IA en robots.txt:

A 2026, los principales bots crawlers de IA se dividen en 5 categorías:

CategoríaDescripciónImpacto al bloquear
Crawlers de entrenamientoRecopilan datos de entrenamiento para LLMExclusión del conocimiento a largo plazo del modelo
Indexadores de búsquedaÍndice para respuestas de búsqueda IADesaparición de resultados de búsqueda IA
Recuperación por usuarioFetch en tiempo real ante preguntasNo referenciable en conversaciones
AgentesIA que navega la web por el usuarioExclusión de servicios de agentes
Recopilación de datosRecopilación masiva de datos webExclusión del dataset correspondiente

Lista de bots principales:

BotPropietarioUso
GPTBotOpenAIEntrenamiento de modelos
OAI-SearchBotOpenAIIndexación de búsqueda ChatGPT
ChatGPT-UserOpenAIRecuperación en tiempo real del usuario
ClaudeBotAnthropicEntrenamiento de modelos
Claude-SearchBotAnthropicIndexación de búsqueda Claude
Claude-UserAnthropicRecuperación en tiempo real del usuario
Google-ExtendedGoogleEntrenamiento de Gemini
Applebot-ExtendedAppleEntrenamiento de Apple Intelligence
Meta-ExternalAgentMetaEntrenamiento de Llama + Meta AI
PerplexityBotPerplexityBúsqueda IA
bingbotMicrosoftBing + Copilot
CCBotCommon CrawlDataset abierto (usado por casi todos los LLM)
BytespiderByteDanceEntrenamiento de Doubao (ignora robots.txt, se recomienda bloquear)

Clave: Hay que distinguir entre bots de entrenamiento y bots de búsqueda/recuperación. Aunque bloquees los bots de entrenamiento, si permites los de búsqueda, seguirás siendo citado en las respuestas de IA. Si bloqueas ambos, desapareces del mundo de la IA.

llms.txt — Si robots.txt dice “dónde rastrear”, llms.txt guía sobre “qué contenido es importante”. Basado en Markdown, ubicado en la raíz del sitio. Anthropic, Hugging Face y Perplexity lo adoptaron tempranamente. Elimina el ruido de menús/anuncios/scripts y proporciona contenido refinado adaptado a la ventana de contexto de la IA.

2. Sitemaps y hreflang: el mapa semántico que lee la IA

Un sitemap tradicional es una lista de URLs. El sitemap de la era GEO es un mapa semántico.

<url>
  <loc>https://www.parkjunwoo.com/opinion/reins-engineering/</loc>
  <lastmod>2026-05-27</lastmod>
  <changefreq>weekly</changefreq>
</url>

Además de esto:

  • Enlaces hreflang: las 12 versiones idiomáticas del mismo artículo se interconectan. La IA valora altamente la autoridad multilingüe
  • Precisión de lastmod: el 76.4% de las citaciones de IA provienen de páginas actualizadas en los últimos 30 días. El contenido de menos de 3 meses tiene 3 veces más probabilidad de ser citado. Falsificar lastmod produce el efecto contrario
  • Estructura de categorías: /opinion/, /tech/, /lecture/ — una jerarquía significativa proporciona más contexto a la IA que una estructura plana

Enviar el sitemap a Google Search Console es lo básico. Pero no es suficiente por sí solo.

3. Wayback Machine y Google Search Console: prueba de originalidad del contenido

Wayback Machine archiva instantáneas de la web desde 1996. Para la IA, esto es memoria temporal.

Por qué importa:

  • Si publicaste el artículo que definió por primera vez “Ratchet Pattern” en mayo de 2026, Wayback Machine conserva esa instantánea
  • Aunque 6 meses después alguien use el mismo concepto en una plataforma mayor, la evidencia temporal señala al autor original
  • Cuando la IA determina la fuente, el momento de primera publicación actúa como señal indirecta de autoridad

Ejecución:

  1. Después de publicar un artículo nuevo, solicitar manualmente el guardado en Wayback Machine (web.archive.org/save/)
  2. Solicitar la indexación de la URL en Google Search Console
  3. Ambos lugares quedan sellados con marca temporal

Nota: a 2026, 241 sitios han bloqueado el acceso a Wayback Machine (por preocupaciones sobre elusión de derechos de autor por empresas de IA). Para blogs personales, esto es más bien una oportunidad — al retirarse los grandes medios del archivo, el peso relativo del contenido personal aumenta.

4. Citación de fuentes y autoridad temática: las condiciones del contenido que los LLM confían

Las tres principales estrategias de mejora de visibilidad según el paper original de GEO (Aggarwal et al., KDD 2024):

EstrategiaMejora de visibilidad
Agregar citas textuales (Quotation)+41%
Agregar estadísticas (Statistics)+32%
Citar fuentes (Cite Sources)+30%

El keyword stuffing es irrelevante o contraproducente en GEO. La IA no busca palabras clave, busca evidencia.

Por qué importa la citación académica:

  • La IA distingue entre “afirmaciones” y “afirmaciones con evidencia”. “El 42% del tiempo de los desarrolladores se consume en deuda técnica” es una afirmación. “El 42% del tiempo de los desarrolladores se consume en deuda técnica (Stripe, The Developer Coefficient, 2018)” es evidencia
  • Las frases con evidencia tienen un costo de confianza menor cuando la IA las cita en sus respuestas. Las frases sin evidencia requieren verificación, así que la IA las omite
  • Los sitios citados por 4 o más plataformas de IA tienen 2.8 veces más apariciones en ChatGPT

Gestión de artículos relacionados y etiquetado:

Las etiquetas no son para las personas. Son para la IA.

  • Sistema de etiquetas consistente: “Reins Engineering”, “Ratchet Pattern”, “SSOT” — cuando las mismas etiquetas se repiten en múltiples artículos, la IA reconoce autoridad temática (topical authority)
  • Enlaces internos: enlazar artículos relacionados dentro del texto permite que los crawlers de IA identifiquen clusters temáticos. Los artículos conectados se citan más que los aislados
  • Citación cruzada: citarse entre artículos propios también es válido. “La base de este concepto se definió en Ratchet Pattern

5. X, Reddit, Hacker News: estrategias sociales para generar volumen de búsqueda de marca

Los términos de uso de X/Twitter prohíben explícitamente el entrenamiento de IA de terceros. Es decir, lo que publicas en X no entra directamente en los datos de entrenamiento de ChatGPT.

Pero la actividad social contribuye a la visibilidad ante la IA por vía indirecta:

El volumen de búsqueda de marca es el predictor más fuerte de citación por LLM (coeficiente de correlación 0.334, superior a los backlinks).

El camino es este:

Hilo en X → La gente busca "yongol" en Google → Sube el volumen de búsqueda de marca → La IA reconoce "yongol" como una entidad digna de citar

Los datos de mayo de parkjunwoo.com lo demuestran:

  • Búsqueda de “yongol” en Google: 14 impresiones, 5 clics, posición promedio 3.1
  • Clones del GitHub de yongol: 316 usuarios únicos
  • Ruta de tráfico: t.co (X) 4 personas → GitHub → blog

Más que compartir enlaces directamente en X, hacer que la gente busque el concepto es más efectivo para GEO.

El poder del earned media:

El 48% de todas las citaciones de LLM provienen de earned media (prensa, reseñas, menciones de terceros). El contenido propio representa solo el 23%. Es decir, lograr que otros te mencionen es 2 veces más efectivo que optimizar tus propios artículos.

Cuando un proyecto se menciona en Reddit, Hacker News o dev.to → a través del crawling de IA de esas plataformas → el LLM aprende la entidad.

Lista de verificación

Infraestructura
├── Sitio estático Hugo + S3 + CloudFront
├── Permitir crawlers de IA en robots.txt
├── Crear llms.txt (curación de contenido clave)
├── Schema.org JSON-LD (Article, Person)
└── Sitemap XML + hreflang

Contenido
├── Citar fuentes en todas las afirmaciones (+30% visibilidad)
├── Insertar estadísticas inline (+32%)
├── Usar tablas comparativas (parsing óptimo para IA)
├── Mantener lastmod con precisión (actualización en 30 días → tasa de citación 76.4%)
└── Actualizar periódicamente artículos de más de 3 meses (3x probabilidad de citación)

Conexión
├── Sistema de etiquetas consistente (autoridad temática)
├── Enlaces internos (clusters temáticos)
├── Citar papers/fuentes externas (reducir costo de confianza)
└── Artículo nuevo → Wayback Machine + envío a GSC

Social
├── Hilos en X para inducir búsqueda del concepto (volumen de búsqueda de marca)
├── Generar earned media en Reddit/HN
└── Difundir conceptos es más favorable para GEO que compartir enlaces directos

Implementación de GEO en este sitio

Las estrategias descritas en este artículo se ejecutan activamente en parkjunwoo.com:

  • robots.txt — Permiso explícito para 25 crawlers de IA, bloqueo de Bytespider
  • llms.txt — Curación de contenido clave adaptado a la ventana de contexto de la IA
  • Colección de artículos Reins Engineering — Hub de cluster temático
  • Build multilingüe en 12 idiomas — Generación automática de hreflang, un punto de entrada por idioma
  • Fuentes académicas en todos los artículos — Estadísticas inline + citaciones académicas para densidad factual
  • Envío inmediato a Wayback Machine + GSC al publicar — Prueba de originalidad temporal

Artículos relacionados

Fuentes

Papers

Informes de datos