Audit Schema.org : lire les écarts utiles avec Python

Pour prolonger cette lecture, vous pouvez comparer ce sujet avec Schema markup : quelles pages baliser en priorité en 2026 ?, puis approfondir la logique avec Comment savoir si une URL est indexée par Google, et quoi corriger quand elle ne l’est pas.

Pourquoi faire cet audit maintenant

Le contexte compte, mais il faut le lire avec prudence. Le texte source évoque une mise à jour Google en mars 2025 sur les return policies, sans fournir ici la documentation primaire. Je retiens donc seulement l’idée générale : les règles autour du balisage bougent, et un audit ponctuel devient vite insuffisant si vous ne contrôlez pas vos templates. Le bon usage de l’outil n’est pas de “faire plus de schema”, mais de vérifier ce qui manque, ce qui diverge, et ce qui correspond vraiment à la page.

Que compare réellement le script

Le script décrit dans le dossier prend un fichier CSV avec des paires d’URL : une URL à vous et une URL concurrente. Ce choix est important. Il s’agit d’une comparaison par paire, utile quand vous voulez examiner une page précise face à une page de même intention ou de même gabarit. C’est le bon format si vous auditez une fiche produit contre une fiche produit, un article contre un article, ou une page locale contre une page locale.

Le dossier mentionne aussi une autre possibilité : comparer une URL à un ensemble de concurrents, par exemple les pages les mieux placées sur une requête. Cette approche est utile pour repérer des tendances de balisage dans un SERP, mais elle introduit plus de biais. Vous ne comparez plus toujours des pages équivalentes. En pratique, la paire URL contre URL convient à un audit précis ; l’ensemble de pages concurrentes sert plutôt à dégager des opportunités récurrentes, à condition d’accepter que toutes les pages du lot ne jouent pas exactement le même rôle.

Quand choisir l’une ou l’autre méthode

URL contre URL : quand vous voulez savoir si une page donnée est alignée sur un template ou une page concurrente comparable.
URL contre ensemble concurrent : quand vous cherchez des écarts répétés sur un type de page, pas une copie ligne à ligne.
Comparaison par lot : utile pour faire émerger des manques systématiques, mais moins fiable pour trancher un cas isolé.

Ce que l’outil voit, et ce qu’il ignore

Le périmètre est volontairement étroit : le script extrait le JSON-LD et pas RDFa ni microdata. C’est une limite technique à garder telle quelle dans l’article, parce qu’elle change la lecture du résultat. Si votre site mélange plusieurs formats, ou si certains concurrents utilisent d’autres syntaxes, le CSV ne raconte qu’une partie de l’histoire. Avant toute décision, il faut donc savoir si l’équipe veut rester sur ce périmètre ou compléter l’audit avec un autre outil.

Autre limite : le script compare la présence de types et de champs, mais pas la qualité sémantique complète du balisage. Il ne prouve pas qu’un champ est exact, ni qu’il correspond à la réalité visible de la page. Il ne dit pas non plus si un moteur de recherche l’utilisera, encore moins s’il en tirera un affichage particulier. Autrement dit, il détecte des écarts de structure ; il ne valide pas un résultat.

L’article source parle aussi de l’intérêt du balisage pour certaines interfaces de recherche ou de réponse. Je ne le transforme pas en promesse : sans source primaire solide et sans test reproductible, il faut traiter cela comme une hypothèse de travail, pas comme un fait acquis.

Quels écarts comptent vraiment

Dans un audit de balisage, tous les écarts ne se valent pas. Le piège, c’est de confondre une différence concurrentielle avec un manque prioritaire. Pour éviter ça, je vous conseille de hiérarchiser en quatre familles.

Type absent : la page n’expose pas du tout une famille de balisage que vous jugez pertinente.
Champ absent dans un type déjà présent : le type existe, mais il lui manque un attribut utile.
Champ incohérent : le champ est là, mais il contredit la page, le contenu éditorial ou la donnée produit.
Champ présent mais non pertinent : il existe chez un concurrent, mais il ne correspond pas à votre page, à votre offre ou à votre modèle de publication.

Le premier cas est visible immédiatement dans le CSV. Le deuxième est souvent plus intéressant, parce qu’il permet une correction ciblée sans refondre le template. Le troisième doit être traité en priorité si vous cherchez la qualité technique. Le quatrième, en revanche, n’est pas une dette automatique : parfois, l’absence est légitime.

Comment lire le tableau sans surinterpréter

Le tableau de sortie est utile s’il vous aide à décider. Il devient trompeur si vous le lisez comme un classement de performance. Une page peut avoir plus de champs qu’une autre et rester moins pertinente. Une autre peut avoir un balisage plus sobre, mais parfaitement aligné sur son contenu réel. Le tableau n’est donc pas un palmarès ; c’est un outil de tri.

Deux critères simples pour juger un écart

Est-ce que l’écart décrit une information vraie, visible ou disponible dans votre système ?
Est-ce que l’écart peut être maintenu sans créer de dette de production ou de contradiction éditoriale ?

Si la réponse est non à l’une de ces deux questions, l’écart doit au minimum être documenté avant d’être corrigé. Copier un concurrent qui déclare davantage ne sert à rien si vous ne pouvez pas tenir la donnée dans le temps.

Deux cas concrets pour décider vite

Premier cas : une page Article possède déjà le type principal, mais il lui manque author.name ou dateModified. Ici, l’audit ne vous demande pas de changer de stratégie. Il vous demande de vérifier si l’auteur est bien identifié, si la date de mise à jour existe réellement et si elle est maintenue dans le CMS. Si la page est publiée par une rédaction identifiable et mise à jour régulièrement, ce sont des manques plausibles et souvent prioritaires. Si la page est une brève figée, ou si l’auteur n’est pas affiché de manière stable, le manque peut être acceptable. L’important est de ne pas inventer l’information juste pour remplir le champ.

Qui doit faire quoi après l’audit

Ce type d’audit concerne plusieurs profils, mais pas pour les mêmes raisons. Le SEO y cherche la cohérence du balisage et la couverture des templates. Le consultant technique vérifie si le format est exploitable et si les écarts viennent du rendu, du CMS ou du template. L’éditeur ou le responsable contenu vérifie si les champs reflètent bien la matière éditoriale. Le produit ou l’e-commerce doit confirmer que les attributs déclarés existent dans la donnée source et qu’ils restent maintenables.

Dans un site éditorial, les champs à surveiller en priorité sont souvent ceux qui touchent à l’identité et à la fraîcheur du contenu. Dans un site e-commerce, la question devient vite plus sensible : retour, livraison, prix, disponibilité, variantes. Dans un site local, le problème est souvent la stabilité des informations pratiques. Dans tous les cas, l’audit ne remplace pas la décision métier ; il aide à la préparer.

Les limites d’une comparaison avec les concurrents

Comparer vos pages à celles d’un concurrent est une méthode d’audit, pas une preuve que son balisage est meilleur. Un concurrent peut surdéclarer, déclarer autre chose, ou maintenir des champs que vous ne devriez pas copier. C’est pour cela qu’il faut relier chaque écart à l’intention réelle de la page. Une page n’a pas besoin d’imiter toutes les autres pour être correcte.

Le second piège, c’est l’échantillonnage. Si vous comparez des pages qui n’ont pas la même intention, le même niveau de détail ou le même template, vous fabriquez du bruit. Pour limiter ce problème, choisissez des paires équivalentes par type de page, puis élargissez seulement si vous cherchez une tendance. Sinon, vous allez mêler divergence éditoriale et défaut de balisage.

Enfin, n’oubliez pas que l’article source présente la comparaison comme une méthode pour repérer des gaps. C’est la bonne lecture. Ce n’est pas une démonstration de gain automatique, ni une preuve d’effet direct sur les résultats ou sur les réponses générées par les systèmes de recherche.

Comment transformer l’audit en plan d’action

La bonne sortie d’un audit de balisage n’est pas une liste infinie de propriétés à ajouter. C’est un plan de correction hiérarchisé. Commencez par les incohérences entre le balisage et la page visible. Puis traitez les champs manquants sur les types déjà en place, parce que ce sont souvent les corrections les plus simples à industrialiser. Ensuite seulement, discutez des types absents, mais uniquement pour les pages où le besoin métier est réel.

Si votre équipe veut aller plus loin, gardez un point de vigilance : le script ne couvre que le JSON-LD. Cela peut suffire pour un premier audit, mais pas pour une politique complète de contrôle. Si vous avez des pages en microdata ou en RDFa, ou si vous voulez vérifier la totalité des templates, il faudra un second passage avec un autre outil ou une autre méthode.

Pour relier cet audit à une logique éditoriale plus stable, contenu data-drivenvous pouvez lire aussi cet article sur la manière de produire des pages moins interchangeables et plus vérifiables.

Au fond, l’intérêt de l’exercice est simple : distinguer ce qui manque vraiment de ce qui manque seulement parce qu’un autre site a choisi autrement. C’est cette distinction qui permet de transformer une comparaison technique en décision utile.