GEO : Comment faire citer votre contenu par l’IA Image generated by Google Gemini

Le GEO (Generative Engine Optimization) est une strategie d’optimisation du contenu pour que les moteurs de recherche IA le citent. Le SEO traditionnel visait a monter dans le classement Google ; le GEO vise a etre inclus comme source dans les reponses generees par l’IA. Aussi appele AEO (Answer Engine Optimization), AI SEO ou optimisation pour la recherche LLM.

La recherche a change — le debut de l’ere AI SEO

On tapait une requête dans Google et dix liens bleus apparaissaient. Désormais, l’IA génère la réponse. ChatGPT, Perplexity, Google AI Overview — les utilisateurs obtiennent des réponses sans cliquer sur un seul lien.

Gartner prévoit une baisse de 25 % du volume de recherche traditionnel d’ici 2026. 31,3 % de la population américaine utilise déjà la recherche IA générative.

Le problème est le suivant : Si votre contenu n’est pas cité dans les réponses générées par l’IA, c’est comme s’il n’existait pas.

Le Generative Engine Optimization (GEO) définit les règles de ce nouveau jeu.

GEO vs SEO vs AEO — quelles differences

Le SEO traditionnel était un jeu de classement Google. Mots-clés, backlinks, balises méta. Le GEO est un jeu différent.

SEOGEO
ObjectifClassement SERPCitation dans les réponses IA
Indicateur de succèsImpressions, clics, CTRTaux de citation, fréquence de recommandation de marque
Signal principalBacklinks, mots-clésClarté des entités, citation de sources, cohérence inter-plateformes
Modèle de traficClic → visite du siteZéro clic (consommation sans visite)

Voici des données surprenantes. 83 % des citations AI Overview proviennent de pages hors du top 10 organique de Google. 28,3 % des pages les plus citées par ChatGPT ont une visibilité organique de 0 sur Google. Le classement SEO traditionnel et la citation par l’IA sont deux jeux distincts.

Alors, que cite l’IA ?

1. Infrastructure : Hugo + CloudFront + robots.txt + llms.txt

Si les crawlers IA ne peuvent pas atteindre votre contenu, pas de citation. La première condition est l’infrastructure technique.

Générateur de site statique (Hugo) + S3 + CloudFront

  • Le HTML statique est la source la plus rapide et la plus propre pour les crawlers. Les SPA nécessitent un rendu JavaScript, et les crawlers IA les ignorent souvent
  • Le CDN CloudFront offre des temps de réponse rapides partout dans le monde. Les crawlers IA utilisent aussi la vitesse comme signal
  • Le build multilingue de Hugo génère automatiquement les balises hreflang. 12 langues = 12 points d’entrée

Sitemap

Le sitemap XML est la base. Mais à l’ère du GEO, deux éléments supplémentaires sont nécessaires :

  1. llms.txt — Un fichier Markdown placé à la racine du site. Si robots.txt dit “où crawler”, llms.txt guide sur “quel contenu est important”. Anthropic, Hugging Face et Perplexity l’ont adopté en précurseurs
  2. Schema.org JSON-LD — Schémas Article, Person, SoftwareSourceCode. C’est un aide-mémoire pour les crawlers IA : “voici ce qu’est cette page”

Autorisation explicite des crawlers IA dans robots.txt :

En 2026, les principaux bots crawlers IA se répartissent en 5 catégories :

CatégorieDescriptionImpact du blocage
Crawlers d’entraînementCollecte de données d’entraînement LLMExclusion des connaissances à long terme du modèle
Indexeurs de rechercheIndex pour les réponses de recherche IADisparition des résultats de recherche IA
Récupération déclenchée par l’utilisateurFetch en temps réel lors d’une questionImpossible de référencer pendant la conversation
AgentsL’IA explore le web pour l’utilisateurExclusion des services d’agents
Collecte de donnéesCollecte de données web à grande échelleExclusion du dataset concerné

Liste des principaux bots :

BotPropriétaireUsage
GPTBotOpenAIEntraînement de modèle
OAI-SearchBotOpenAIIndexation pour la recherche ChatGPT
ChatGPT-UserOpenAIRécupération en temps réel par l’utilisateur
ClaudeBotAnthropicEntraînement de modèle
Claude-SearchBotAnthropicIndexation pour la recherche Claude
Claude-UserAnthropicRécupération en temps réel par l’utilisateur
Google-ExtendedGoogleEntraînement Gemini
Applebot-ExtendedAppleEntraînement Apple Intelligence
Meta-ExternalAgentMetaEntraînement Llama + Meta AI
PerplexityBotPerplexityRecherche IA
bingbotMicrosoftBing + Copilot
CCBotCommon CrawlDataset ouvert (utilisé par quasi tous les LLM)
BytespiderByteDanceEntraînement Doubao (ignore robots.txt, blocage recommandé)

L’essentiel : Il faut distinguer les bots d’entraînement des bots de recherche/récupération. Même en bloquant les bots d’entraînement, si vous autorisez les bots de recherche, vous serez cité dans les réponses IA. Si vous bloquez les deux, vous disparaissez du monde de l’IA.

llms.txt — Si robots.txt dit “où crawler”, llms.txt guide sur “quel contenu est important”. Fichier Markdown placé à la racine du site. Anthropic, Hugging Face et Perplexity l’ont adopté en précurseurs. Il élimine le bruit des menus, publicités et scripts pour fournir un contenu épuré adapté à la fenêtre de contexte de l’IA.

2. Sitemaps et hreflang : la carte semantique lue par l’IA

Le sitemap traditionnel est une liste d’URL. Le sitemap de l’ère GEO est une carte sémantique.

<url>
  <loc>https://www.parkjunwoo.com/opinion/reins-engineering/</loc>
  <lastmod>2026-05-27</lastmod>
  <changefreq>weekly</changefreq>
</url>

En complément :

  • Liens hreflang : les 12 versions linguistiques d’un même article sont interconnectées. L’IA valorise l’autorité multilingue
  • Précision du lastmod : 76,4 % des citations IA proviennent de pages mises à jour dans les 30 derniers jours. Le contenu de moins de 3 mois a 3 fois plus de chances d’être cité. Falsifier le lastmod produit l’effet inverse
  • Structure par catégories : /opinion/, /tech/, /lecture/ — une hiérarchie significative donne plus de contexte à l’IA qu’une structure plate

Soumettre le sitemap à Google Search Console est le minimum. Mais cela ne suffit pas.

3. Wayback Machine et Google Search Console : prouver l’original

La Wayback Machine archive des instantanés du web depuis 1996. Pour l’IA, c’est une mémoire temporelle.

Pourquoi c’est important :

  • Si vous avez publié le premier article définissant le “Ratchet Pattern” en mai 2026, la Wayback Machine en conserve l’instantané
  • Six mois plus tard, même si quelqu’un utilise le même concept sur une plateforme plus importante, la preuve temporelle désigne l’auteur original
  • Lorsque l’IA détermine les sources, la date de première publication agit comme un signal d’autorité indirect

Mise en oeuvre :

  1. Après publication d’un nouvel article, soumettre une demande de sauvegarde à la Wayback Machine (web.archive.org/save/)
  2. Demander l’indexation de l’URL dans Google Search Console
  3. Un horodatage est apposé dans les deux endroits

Note : en 2026, 241 sites bloquent l’accès à la Wayback Machine (craintes de contournement du droit d’auteur par les entreprises IA). Pour un blog personnel, c’est plutôt une opportunité — dans une archive dont les grands médias se retirent, le poids relatif du contenu individuel augmente.

4. Citations et autorite thematique (Topical Authority)

Les 3 premières stratégies d’amélioration de la visibilité selon l’article original GEO (Aggarwal et al., KDD 2024) :

StratégieAmélioration de la visibilité
Ajout de citations (Quotation)+41 %
Ajout de statistiques (Statistics)+32 %
Mention des sources (Cite Sources)+30 %

Le bourrage de mots-clés est inutile, voire contre-productif en GEO. L’IA ne regarde pas les mots-clés mais les preuves.

Pourquoi les citations académiques comptent :

  • L’IA distingue une “affirmation” d’une “affirmation étayée”. “42 % du temps des développeurs est consacré à la dette technique” est une affirmation. “42 % du temps des développeurs est consacré à la dette technique (Stripe, The Developer Coefficient, 2018)” est une preuve
  • Les phrases étayées ont un coût de confiance faible lorsque l’IA les cite dans ses réponses. Les phrases sans source doivent être vérifiées et sont donc ignorées
  • Les sites cités par 4 plateformes IA ou plus apparaissent 2,8 fois plus souvent dans ChatGPT

Gestion des contenus associés et du tagging :

Les tags ne sont pas pour les humains. Ils sont pour l’IA.

  • Système de tags cohérent : “Reins Engineering”, “Ratchet Pattern”, “SSOT” — lorsqu’un même tag apparaît dans plusieurs articles, l’IA reconnaît une autorité thématique (topical authority)
  • Liens internes : lier les articles connexes au sein d’un article aide les crawlers IA à identifier les clusters thématiques. Un article connecté est plus cité qu’un article isolé
  • Références croisées : les auto-citations entre vos propres articles sont valables. “Les fondements de ce concept sont définis dans Ratchet Pattern

5. X, Reddit, Hacker News : strategies sociales pour le volume de recherche de marque

Les conditions d’utilisation de X/Twitter interdisent explicitement l’entraînement IA par des tiers. Autrement dit, les publications sur X n’entrent pas directement dans les données d’entraînement de ChatGPT.

Mais l’activité sociale contribue à la visibilité IA par des voies indirectes :

Le volume de recherche de marque est le meilleur prédicteur des citations LLM (coefficient de corrélation 0,334, supérieur aux backlinks).

Voici le chemin :

Thread X → les gens recherchent "yongol" sur Google → volume de recherche de marque en hausse → l'IA reconnaît "yongol" comme une entité digne d'être citée

Les données de mai de parkjunwoo.com le confirment :

  • Recherche Google “yongol” : 14 impressions, 5 clics, position moyenne 3,1
  • Clones GitHub yongol : 316 utilisateurs uniques
  • Parcours d’acquisition : t.co (X) 4 personnes → GitHub → blog

Plutôt que de partager directement des liens sur X, amener les gens à rechercher le concept est plus efficace pour le GEO.

La puissance du earned media :

48 % de l’ensemble des citations LLM proviennent du earned media (presse, critiques, mentions tierces). Le contenu propriétaire ne représente que 23 %. Autrement dit, faire en sorte que d’autres vous mentionnent est 2 fois plus efficace que d’optimiser votre propre contenu.

Quand un projet est mentionné sur Reddit, Hacker News ou dev.to → via le crawling IA de ces plateformes → le LLM apprend l’entité.

Checklist

Infrastructure
├── Site statique Hugo + S3 + CloudFront
├── Autoriser les crawlers IA dans robots.txt
├── Créer llms.txt (curation du contenu essentiel)
├── Schema.org JSON-LD (Article, Person)
└── Sitemap XML + hreflang

Contenu
├── Mentionner la source pour chaque affirmation (+30 % de visibilité)
├── Insérer des statistiques en ligne (+32 %)
├── Utiliser des tableaux comparatifs (parsing IA optimal)
├── Maintenir lastmod à jour (mise à jour < 30 jours → taux de citation 76,4 %)
└── Mettre à jour régulièrement les articles de plus de 3 mois (probabilité de citation x3)

Connexions
├── Système de tags cohérent (autorité thématique)
├── Liens internes (clusters thématiques)
├── Citations d'articles/sources externes (réduction du coût de confiance)
└── Nouvel article → Wayback Machine + soumission GSC

Social
├── Threads X pour générer des recherches de concept (volume de recherche de marque)
├── Générer du earned media sur Reddit/HN
└── La diffusion du concept est plus favorable au GEO que le partage direct de liens

Mise en oeuvre du GEO sur ce site

Les strategies decrites dans cet article sont effectivement appliquees sur parkjunwoo.com :

  • robots.txt — 25 crawlers IA explicitement autorises, Bytespider bloque
  • llms.txt — Contenu essentiel organise pour s’adapter a la fenetre de contexte de l’IA
  • Collection d’articles Reins Engineering — Hub de cluster thematique
  • Build multilingue en 12 langues — Generation automatique de hreflang, points d’entree par langue
  • Sources academiques dans chaque article — Statistiques en ligne + citations academiques pour la densite factuelle
  • Soumission immediate a Wayback Machine + GSC apres publication — Preuve temporelle d’originalite

Articles associes

Sources

Articles académiques

Rapports de données