Avec plus de 800 millions d'utilisateurs hebdomadaires revendiqués par OpenAI en octobre 2025, et autour de 900 millions annoncés en février 2026, ChatGPT est devenu un point d'entrée massif vers l'information. Pour une marque, une question s'impose désormais à côté du référencement Google classique : suis-je cité quand un utilisateur interroge l'assistant sur mon marché ? Le signal n'est plus anecdotique. Adobe Analytics mesurait dès mars 2025 une hausse de plus de 1 200 % en un an du trafic de référence issu des moteurs d'IA générative vers le retail américain, avec des visiteurs qui convertissent 31 % de plus que la moyenne. Ces utilisateurs arrivent qualifiés, déjà informés par la réponse de l'IA.
Le problème : ChatGPT ne fonctionne pas comme un moteur de recherche traditionnel. Comprendre d'où il tire ses réponses est le préalable à toute optimisation. C'est l'objet du GEO, ou Generative Engine Optimization, discipline encore jeune mais déjà documentée académiquement. L'étude fondatrice d'Aggarwal et al. (Princeton, présentée à ACM SIGKDD 2024) montre qu'un contenu optimisé selon des méthodes GEO gagne jusqu'à 40 % de visibilité dans les réponses génératives. Voyons d'abord la mécanique, puis sept leviers concrets pour s'y inscrire.
Comment ChatGPT choisit ses sources
Il faut distinguer deux régimes de réponse. Le premier repose sur la mémoire d'entraînement : le modèle a ingéré un large corpus web figé à une date donnée, et restitue ce qu'il a appris sans aller chercher sur internet. Dans ce mode, être cité dépend de votre empreinte dans les données d'entraînement, donc de votre présence sur le web ouvert au moment du crawl. Aucune citation cliquable n'apparaît : le modèle paraphrase un savoir intériorisé.
Le second régime est la navigation en direct, ou RAG (retrieval-augmented generation). Quand la requête appelle de la fraîcheur ou des faits précis, ChatGPT lance une recherche web via son robot dédié OAI-SearchBot, récupère des pages, et compose sa réponse à partir de ces extraits. C'est dans ce mode que des citations cliquables s'affichent, renvoyant vers les sources retenues. À distinguer de GPTBot, le crawler qui collecte de la donnée d'entraînement. Bloquer l'un ou l'autre dans votre robots.txt a des conséquences très différentes.
La logique de sélection en mode recherche ressemble à un classement : ChatGPT favorise les pages qui répondent directement à la requête, dont un passage est facilement extractible et compréhensible hors contexte, et dont la source inspire confiance. Ce dernier point passe souvent par des sources tierces déjà reconnues. Les sept leviers ci-dessous adressent ces deux régimes à la fois.
Levier 1 — Des pages sources avec des passages extractibles et autonomes
ChatGPT en mode recherche ne cite pas une page entière : il en extrait un passage. Si votre réponse à une question est noyée dans un paragraphe qui suppose d'avoir lu les trois précédents, elle est inutilisable telle quelle. Le moteur préfère un bloc qui se suffit à lui-même.
Concrètement, structurez chaque idée clé en unité autonome : une affirmation claire en tête de paragraphe, le contexte minimal inclus, pas de référent flou du type « comme vu plus haut ». C'est exactement le type d'optimisation que l'étude de Princeton associe à un gain de visibilité.
- Placez la réponse directe en première phrase, le développement ensuite.
- Évitez les pronoms qui renvoient à un paragraphe antérieur.
- Découpez en sections courtes avec des intertitres explicites.
- Donnez le contexte (qui, quoi, où) dans le passage lui-même.
Levier 2 — Des données structurées JSON-LD
Le balisage JSON-LD (schema.org) ne pilote pas directement la citation, mais il lève l'ambiguïté sur la nature de votre contenu : article, FAQ, produit, organisation, auteur. Pour un système qui doit décider rapidement si une page répond à une intention, cette désambiguïsation machine est un accélérateur.
Les types FAQPage, Article, Organization et Product sont les plus utiles. Ils alimentent aussi le graphe de connaissances que les moteurs et les IA partagent, renforçant indirectement la reconnaissance de votre entité.
- Balisez vos pages éditoriales en Article avec auteur et date.
- Utilisez FAQPage quand vous répondez à des questions réelles.
- Déclarez votre entité via Organization (logo, sameAs, identifiants).
- Gardez le JSON-LD cohérent avec le contenu visible de la page.
Levier 3 — Cohérence d'entité et co-occurrences
Une IA reconnaît une marque comme une entité stable quand son nom apparaît systématiquement associé aux mêmes attributs : secteur, fondateurs, localisation, produits phares. Si votre dénomination, votre catégorie et vos termes métier co-occurrent de façon constante à travers le web, le modèle apprend à vous rattacher à votre domaine d'expertise.
À l'inverse, une entité floue — nom décliné de dix façons, positionnement changeant — se dilue dans le corpus et n'est citée pour rien de précis. La cohérence est un travail de fond sur l'ensemble de votre présence en ligne.
- Fixez une dénomination unique et un descriptif d'entité stable.
- Associez toujours votre marque à vos 3-4 termes métier pivots.
- Harmonisez votre description sur tous vos profils et mentions.
- Renseignez sameAs pour relier vos présences (site, réseaux, annuaires).
Levier 4 — Être présent sur les sources tierces déjà citées
Les modèles s'appuient lourdement sur quelques sources de référence qu'ils jugent fiables : Wikipedia, plateformes d'avis, annuaires sectoriels, presse spécialisée. Être mentionné sur ces supports, c'est entrer dans le périmètre que ChatGPT consulte ou a mémorisé en priorité.
Ce n'est pas un raccourci : une page Wikipedia exige une notoriété réelle et des sources secondaires, les avis se gagnent par l'usage. Mais viser ces points d'ancrage produit un effet de levier supérieur à celui d'une page de plus sur votre propre site.
- Visez une présence éditoriale dans la presse de votre secteur.
- Soignez vos fiches sur les annuaires et plateformes d'avis pertinents.
- Documentez votre notoriété pour soutenir une éventuelle page encyclopédique.
- Recherchez les mentions sur les comparatifs déjà cités par les IA.
Levier 5 — llms.txt et un robots.txt qui n'interdit pas les robots d'OpenAI
Premier réflexe : vérifier que votre robots.txt ne bloque ni GPTBot ni OAI-SearchBot. Beaucoup de sites les ont interdits par précaution sans mesurer qu'ils se rendaient ainsi invisibles à l'entraînement et à la recherche en direct. Si vous voulez être cité, laissez-les passer.
Le fichier llms.txt, proposé par Jeremy Howard (Answer.AI) en septembre 2024, est une convention émergente : un fichier à la racine qui pointe vers vos contenus les plus pertinents en Markdown, pour faciliter la lecture par les modèles. Son adoption par les moteurs n'est pas garantie, mais il coûte peu et clarifie votre offre éditoriale.
- Auditez robots.txt : GPTBot et OAI-SearchBot ne doivent pas être en Disallow.
- Distinguez les deux robots : entraînement (GPTBot) vs recherche (OAI-SearchBot).
- Publiez un llms.txt listant vos pages de référence en Markdown.
- Vérifiez qu'aucune règle de pare-feu ne bloque ces user-agents côté serveur.
Levier 6 — Fraîcheur et dates explicites
En mode recherche, ChatGPT privilégie souvent l'information récente, surtout sur des sujets mouvants. Une page sans date, ou visiblement périmée, perd face à un contenu daté et tenu à jour. La date n'est pas qu'un signal de confiance : elle aide le moteur à arbitrer entre deux sources concurrentes.
Affichez clairement la date de publication et celle de la dernière mise à jour, et actualisez réellement le contenu plutôt que de changer la date à vide. Sur les sujets évolutifs, un cycle de révision régulier maintient l'éligibilité à la citation.
- Affichez date de publication ET date de mise à jour, en clair et en JSON-LD.
- Actualisez le fond, pas seulement l'horodatage.
- Priorisez la fraîcheur sur les sujets à forte rotation.
- Retirez ou corrigez les chiffres et faits devenus obsolètes.
Levier 7 — Une FAQ qui répond à la requête réelle
Les utilisateurs interrogent ChatGPT en langage naturel, par questions complètes. Une FAQ calée sur ces formulations réelles offre au moteur des paires question-réponse directement réutilisables — le format le plus extractible qui soit. Rappelons qu'environ 65 à 69 % des recherches Google sont déjà zero-click (Similarweb, 2025) : l'utilisateur attend la réponse, pas une liste de liens, et l'IA répond à cette attente.
La condition est de partir des vraies questions de votre audience, pas de questions inventées pour caser des mots-clés. Une réponse concise et autonome par question, balisée en FAQPage, maximise vos chances d'être la source citée.
- Collectez les questions réelles (support, recherches, suggestions ChatGPT).
- Rédigez une réponse autonome de 2-4 phrases par question.
- Balisez la section en FAQPage (JSON-LD).
- Couvrez la requête telle qu'elle est posée, pas une reformulation marketing.
Questions fréquentes
Quelle différence entre GPTBot et OAI-SearchBot ?
GPTBot collecte des données pour l'entraînement des modèles d'OpenAI : il alimente la mémoire du modèle. OAI-SearchBot est le robot de recherche en direct, utilisé quand ChatGPT navigue sur le web pour répondre à une requête et afficher des citations cliquables. Bloquer l'un n'a pas le même effet que bloquer l'autre : pour être cité, aucun des deux ne doit être interdit dans votre robots.txt.
Le fichier llms.txt suffit-il pour être cité par ChatGPT ?
Non. Le llms.txt, proposé par Jeremy Howard en septembre 2024, est une convention émergente qui facilite la lecture de vos contenus par les modèles, mais son respect par les moteurs n'est pas garanti et il ne remplace ni un contenu de qualité, ni la présence sur des sources tierces reconnues, ni l'accessibilité aux robots d'OpenAI. C'est un levier d'appoint, pas une condition suffisante.
Le GEO a-t-il un effet mesurable sur la visibilité ?
Oui, selon les premières études académiques. Le travail d'Aggarwal et al. (Princeton, ACM SIGKDD 2024) montre qu'un contenu optimisé avec des méthodes GEO — passages extractibles, structure claire, sources citées — gagne jusqu'à 40 % de visibilité dans les réponses des moteurs génératifs par rapport à un contenu non optimisé.
Pour aller plus loin