URL indexée par Google : comment vérifier et corriger

Pour prolonger cette lecture, vous pouvez comparer ce sujet avec Quand une réponse d’IA semble fiable, et quand il faut la contrôler, puis approfondir la logique avec Google choisit-il les contenus autrement ? Ce que change la sélection.

Ce qu’il faut savoir tout de suite quand une URL ne remonte pas

Si une page publiée ne remonte pas dans Google, la vraie question n’est pas “comment la faire passer plus vite”, mais “où se situe le blocage”. Le diagnostic utile commence par séparer quatre cas que l’on confond souvent : une URL découverte mais pas encore crawlée, une URL crawlée mais écartée par Google, une URL bloquée par une règle technique, et une URL indexée mais invisible pour d’autres raisons. Tant qu’on ne sait pas dans quel cas on est, on corrige au hasard.

Le dossier source confirme une chose simple : pour apparaître dans les résultats organiques de Google, une page doit d’abord être dans l’index. Il décrit aussi la chaîne classique découverte, crawl, indexation, sélection. En revanche, il faut rester prudent sur ce qu’on peut déduire au-delà : l’absence de l’indexation empêche l’apparition dans les résultats classiques, mais le comportement exact des surfaces d’IA de Google évolue et ne doit pas être présenté comme une règle figée.

Comment vérifier l’indexation sans se tromper d’outil

Le réflexe le plus rapide est souvent le mauvais : taper une URL au hasard et conclure à partir d’un résultat isolé. Pour savoir si une page est réellement indexée, il faut choisir l’outil selon la question posée. La recherche site: donne un signal rapide, Google Search Console donne un diagnostic, et l’inspection d’URL permet de vérifier une page précise.

Quel outil utiliser en premier selon le symptôme

Si vous voulez un test immédiat et approximatif, utilisez site:votredomaine.fr. Cela donne une idée de la présence d’un site dans l’index, mais pas une preuve exhaustive.
Si vous voulez comprendre pourquoi une URL n’apparaît pas, ouvrez Google Search Console et allez dans le rapport de pages.
Si vous voulez statuer sur une page précise, utilisez l’inspection d’URL : elle indique si Google considère la page comme présente ou absente de l’index.
Si vous devez contrôler l’ensemble des pages prioritaires, le sitemap reste utile, mais il ne remplace ni le rapport de pages ni l’inspection.

Le point de vigilance important, confirmé par le texte source, est que le rapport des pages indexées dans Search Console peut ne pas afficher tout l’historique si l’on dépasse une limite d’environ 1 000 éléments, ou si la dernière exploration n’a pas encore intégré une page récente. Il faut donc lire Search Console comme un tableau de bord opérationnel, pas comme une photographie parfaite de tout l’index.

Les statuts qui disent vraiment ce qui bloque

Dans Search Console, plusieurs libellés reviennent sans cesse. Ils ne veulent pas tous dire la même chose, et c’est là que les erreurs de diagnostic coûtent du temps. Un statut technique n’est pas une condamnation éditoriale, et un statut éditorial n’est pas toujours un bug.

Discovered – currently not indexed et Crawled – currently not indexed

Ces deux statuts sont ceux qu’on voit le plus sur des pages neuves ou sur des volumes importants. Dans le premier cas, Google connaît l’URL mais n’a pas encore crawlé la page. Dans le second, Google a visité la page mais a choisi de ne pas l’indexer. Le dossier source suggère qu’un problème de budget de crawl peut intervenir dans le premier cas, tandis que le second signale souvent un arbitrage de qualité ou de redondance. Il faut garder cette distinction : c’est une interprétation utile, pas une règle universelle.

Discovered – currently not indexed : vérifier d’abord si la page est bien reliée depuis le site, si elle figure dans le sitemap et si elle n’est pas enterrée trop profondément.
Crawled – currently not indexed : vérifier en priorité si la page apporte quelque chose d’unique, si elle est trop proche d’autres pages, et si le canonical ou les liens internes n’envoient pas un signal contradictoire.

robots.txt, noindex, canonical et 404

Ici, on quitte l’interprétation pour entrer dans les blocages concrets. Si robots.txt interdit le crawl, Google ne peut pas aller lire la page. Si une balise noindex est présente, la page dit explicitement à Google de ne pas l’indexer. Si le canonical pointe ailleurs, Google peut décider qu’une autre version est la bonne. Si l’URL retourne une 404, la page n’existe pas à cet emplacement.

robots.txt : à vérifier quand une page importante ne semble même pas atteinte par Google.
noindex : à vérifier après une migration, une mise en préproduction ou un changement de modèle de page.
canonical différent : à vérifier quand plusieurs URLs affichent un contenu similaire ou quasi identique.
404 : à vérifier quand une ancienne adresse continue d’être partagée ou liée.

Le texte source précise aussi un point important : Google peut choisir un canonical différent de celui déclaré par l’éditeur. Ce n’est pas une loi générale, mais un cas possible dès que les signaux sont ambigus. Cela veut dire qu’il faut toujours vérifier l’ensemble du faisceau d’indices : balise canonical, maillage interne, sitemap et état réel des URLs.

Que corriger avant de demander une indexation

L’erreur la plus fréquente consiste à cliquer trop vite sur “demander l’indexation” alors que la cause n’est pas réglée. La demande peut aider à faire recrawler une page, mais elle ne transforme pas une URL bloquée, dupliquée ou faible en URL indexable. Il faut donc prioriser les corrections dans le bon ordre.

L’ordre de décision le plus utile

1. Corriger le blocage technique immédiat : robots.txt, noindex, 404, redirection absente ou cassée.
2. Clarifier le canonical si Google part sur une autre version que celle voulue.
3. Réparer l’URL elle-même si elle doit revenir en ligne, ou mettre une 301 si l’ancienne page a été déplacée.
4. Renforcer le maillage interne pour signaler qu’une page mérite d’être trouvée et revisitée.
5. Nettoyer les doublons ou les pages trop faibles avant de relancer une demande d’indexation.

Cas 1 : un site e-commerce publie 200 fiches produits et elles restent en Crawled – currently not indexed. Le premier réflexe n’est pas de forcer Google, mais de regarder si les fiches se ressemblent trop. Si seules la couleur, la taille ou une phrase d’accroche changent, Google peut considérer que la page n’apporte pas assez de valeur distincte. Dans ce cas, il faut aussi vérifier le canonical, le maillage depuis les catégories et les fiches liées, et la présence d’un contenu réellement utile : caractéristiques distinctives, usage, disponibilité, comparatif, FAQ produit. Une page “propre” techniquement peut rester hors index si elle ressemble à un simple gabarit.

Cas 2 : un site éditorial voit des nouvelles pages passer en Discovered – currently not indexed après une migration. Là, le problème peut être double : les nouvelles URLs ne sont pas encore suffisamment reliées, ou l’ancienne architecture continue d’exister en parallèle. Si l’ancienne URL renvoie 404 alors qu’une nouvelle version existe, il faut mettre une 301. Si l’URL est bloquée par robots.txt, Google ne peut même pas la visiter. Si la page a été noindexée par erreur, il faut retirer cette instruction avant toute autre action.

Quand un sitemap aide, et quand il ne suffit pas

Le sitemap n’est pas un bouton “indexer maintenant”. C’est un signal de découverte et de priorisation. Le dossier source le présente correctement : il peut aider Google à trouver des pages importantes plus vite, et Google Search Console affiche ensuite un traitement qui prend en général quelques jours, sans garantie sur l’issue. Cela reste une estimation, pas une promesse.

Un sitemap est utile quand il liste des URLs que vous voulez réellement voir indexées : pages produits, catégories utiles, articles de fond, pages de service. Il est beaucoup moins utile s’il mélange des paramètres, des filtres, des versions de tri ou des pages que vous ne souhaitez pas voir indexées. Dans ce cas, le sitemap brouille le message au lieu de l’éclairer.

À mettre dans le sitemap : URLs canonique uniques, en 200, que vous considérez comme prioritaires.
À exclure du sitemap : facettes inutiles, paramètres, pages internes de recherche, doublons, pages noindex ou 404.
À vérifier après soumission : si la page est bien découvrable et si le sitemap ne remplace pas un maillage interne insuffisant.

Ce que l’indexation change pour Google, et ce qu’elle ne garantit pas

Le dossier source affirme qu’une page absente de l’index n’apparaît pas dans les résultats organiques, ni dans certaines surfaces d’IA de Google telles que celles citées dans le texte source. Il faut toutefois conserver une réserve éditoriale : les surfaces concernées évoluent, et leur fonctionnement exact n’est pas toujours documenté publiquement avec le même niveau de détail que l’indexation classique.

La bonne conclusion n’est donc pas “l’indexation suffit à tout”. La conclusion utile est plus simple : sans indexation, vous ne pouvez pas compter sur la présence de la page dans Google Search. Avec indexation, vous n’avez toujours pas gagné le classement, ni la mise en avant sur les requêtes qui comptent, ni une présence automatique dans toutes les surfaces d’IA évoquées par l’écosystème Google.

Autrement dit, l’indexation est un prérequis, pas une récompense. Elle ouvre la porte, elle ne garantit ni la place ni la fréquence d’affichage.

Si vous avez aussi besoin de mesurer ce qui se passe après l’indexation, l’article sur le rapport AI Search dans Search Console peut prolonger utilement ce diagnostic :

Qui doit agir en premier selon le cas

Le bon interlocuteur dépend du symptôme. Sur un site neuf, le sujet est souvent d’abord technique et structurel. Sur un catalogue e-commerce, le problème est souvent la répétition. Sur un site éditorial, la cause peut être une migration mal gérée. Dans tous les cas, il faut éviter de traiter un problème de crawl comme un problème de rédaction, ou l’inverse.

SEO : arbitre le diagnostic entre blocage technique, duplication, maillage et priorisation des URLs.
Technique : corrige robots.txt, noindex, canonicals, redirections et codes HTTP.
Rédaction : renforce les pages trop proches les unes des autres, ajoute des éléments réellement distinctifs et retire les contenus faibles.
Migration : vérifie les anciennes URLs, les 301, les canonicals hérités et les erreurs 404.

La règle pratique est simple : on corrige d’abord ce qui empêche Google de comprendre ou d’atteindre la page, ensuite ce qui l’incite à choisir une autre version, puis ce qui peut expliquer qu’il n’indexe pas malgré le crawl. Demander l’indexation manuellement n’a de sens qu’après ces vérifications. Sinon, on ne fait que déplacer le symptôme.

Le test de fin : savoir si vous avez réglé le bon problème

Vous avez probablement traité le bon niveau de problème si, après correction, l’URL passe d’un statut bloquant à un statut neutre ou indexable, si la version canonique affichée dans Search Console correspond à celle que vous visez, et si les liens internes pointent clairement vers la bonne page. À l’inverse, si vous corrigez un noindex mais que la page reste systématiquement rejetée, le problème n’était peut-être pas seulement technique.

Le but n’est donc pas d’accumuler des demandes de réindexation. Le but est de faire en sorte que Google ait une seule bonne raison de choisir votre URL : elle est accessible, cohérente, utile, et correctement reliée au reste du site. C’est seulement à ce stade que la demande d’indexation ou le sitemap deviennent des accélérateurs crédibles.