Le fichier sitemap est devenu, avec le temps, un incontournable du SEO. Souvent cité dans les discussions liées au référencement naturel, il est étroitement lié à l’exploration et l’indexation des différentes URLs présentes sur votre site.
Particulièrement intéressant lorsque vous concevez un site e-commerce avec de nombreuses pages, il facilite la découverte des différentes URLs de votre boutique en ligne. Je vous conseille donc de ne pas négliger ce fichier !
Qu’est-ce que le fichier sitemap ?
Pour mieux comprendre d'où vient ce protocole très standardisé, commençons par un peu d'histoire et quelques dates clés :
- 2005 : Google crée une première version nommée Sitemaps 0.84.
- Décembre 2006 : Microsoft et Yahoo annoncent la prise en charge de Sitemaps 0.90. C'est à cet instant que fut réellement établi un protocole, élaborant un standard d'écriture pour tous les sitemaps à venir ;
Site officiel : https://www.sitemaps.org/index.html
Pour revenir sur sa fonction principale, le sitemap d'un site Internet est un fichier répertoriant l’ensemble des URLs que vous souhaitez indexer. Il doit comporter uniquement les URLs pertinentes à visiter pour les moteurs de recherche.
Le sitemap peut-être composé de différentes informations :
- loc : URL de la page. C’est le seul champ obligatoire.
- lastmod : date de dernière modification
- changefreq : fréquence de mise à jour
- priority : priorité des URLs
Voici un exemple de fichier Sitemap XML qui recense l’URL “https://www.site.fr/ :
Il est également intéressant de préciser que le format XML n’est pas obligatoire. Vous pouvez, par exemple, créer un sitemap au format texte (.txt). En revanche, il vous sera impossible d’indiquer les éléments facultatifs cités ci-dessus (lastmod, changefreq et priority). Celui-ci contiendra uniquement la liste des URLs.
L’objectif de ce fichier est de faciliter le crawl de votre site. Le crawl représente l’exploration d’un site web par un robot de moteur de recherche. Lors de son passage, le robot va découvrir et analyser le code source de la page pour en ressortir les différents éléments (HTML, images, liens internes et externes,...).
Lorsque ce fichier est déclaré aux moteurs de recherche, ils vont l’analyser régulièrement pour explorer l’ensemble des URLs qui y sont listées. Puis, si tout se déroule comme prévu, ils vont les indexer pour qu’elles puissent apparaître dans les résultats lorsque des internautes formulent des requêtes.
Voici un article complet sur les URLs et le SEO.
Qu’est-ce qu’un index de sitemaps ?
Il est tout à fait possible pour un site de posséder plusieurs sitemaps.
Dans ce cas, un fichier d'index de sitemaps peut-être créé. Il va permettre de lister les différents sitemaps au sein d’une page de sitemap. L’avantage est que tous les sitemaps sont envoyés en une seule fois.
L’ensemble des boutiques WiziShop possèdent, par défaut, des index de sitemaps. En tant qu’acteur du e-commerce, nous avons préféré séparer les différentes sections d’une boutique en ligne (pages statiques, catégories, fiches produits, blog…) en plusieurs sitemaps, regroupés dans un index. Je vous présente cet élément en fin d’article.
Comme pour le sitemap classique, l'index de sitemaps est à déclarer dans vos outils pour webmaster.
Les informations à connaître sur le sitemap
Maintenant que vous connaissez les principales caractéristiques et le fonctionnement d'un fichier sitemap, voici quelques informations intéressantes à connaître.
Possibilité de l’ajouter à l’emplacement de votre choix
Un fichier sitemap peut posséder n'importe quel nom et son emplacement est libre.
À la différence du fichier robots.txt, qui doit forcément se situer à la racine du site et avoir un nom précis, le fichier sitemap peut être placé à n’importe quel endroit et posséder une URL libre.
Découvrez notre guide sur le fichier robots.txt
La seule obligation est qu’il doit se trouver sur le nom de domaine en question.
Si vous le souhaitez, vous pouvez donc choisir un nom de fichier différent. Ce changement vous permet de cacher les différentes URLs que vous souhaitez faire explorer et indexer.
A contrario, pour trouver le fichier sitemap XML de vos concurrents, plusieurs solutions s'offrent à vous :
- Ajouter à la suite de la racine du site “/sitemap.xml” ;
- Consulter le fichier /robots.txt du site. Peut-être que le fichier sitemap y est déclaré…
Comme le nom du sitemap est totalement libre, vous allez peut-être tomber sur une erreur 404, mais rien ne vous empêche d'essayer car la grande majorité des sites utilisent cet emplacement.
Possibilité d’avoir plusieurs sitemaps sur un même site
Comme je l’ai indiqué plus haut, un site Internet peut comporter plusieurs fichiers sitemaps, mais pas obligatoirement recensés dans un index.
Vous êtes totalement libre d'en créer plusieurs dans différents dossiers du site et de les déclarer, un par un, dans les outils pour webmaster.
Certains sites possèdent, par exemple, un sitemap pour toutes les pages statiques, un autre sitemap pour le blog, etc.
Pour illustrer, vous pouvez très bien avoir un sitemap au niveau de la racine du site : https://www.exemple.fr/sitemap.xml et un autre au niveau du blog : https://www.exemple.fr/blog/sitemap.xml.
Les limites d’URLs dans le sitemap
Comme je viens de l'évoquer, chacun est libre d'utiliser un nombre presque illimité de fichiers sitemaps.
Néanmoins, il existe quelques limites. Mais pas d’inquiétude, vous ne les atteindrez probablement jamais…
Les limitations sont les suivantes :
- Un fichier sitemap peut contenir jusqu'à 50 000 URLs ;
- Un index de sitemaps peut contenir 50 000 sitemaps différents ;
- Chaque site peut avoir jusqu'à 500 fichiers d'index de sitemaps ;
- Une fois décompressé, la taille du fichier sitemap ne doit pas dépasser 50 Mo.
Je vous passe le calcul, mais en profitant des index de sitemaps, votre nombre d’URLs total à envoyer est limité à 2,5 milliards. Vous voilà moins inquiet non ?
Indiquer des URLs complètes
Dans votre fichier sitemap, le protocole stipule que les URLs doivent être complètes et non pas relatives.
En d'autres termes, ces dernières doivent systématiquement commencer par « http » ou « https ».
Indiquer uniquement des URLs avec un intérêt pour le SEO
C’est un des points les plus importants de cet article, donc j'insiste particulièrement dessus.
Étant donné que l’objectif du sitemap est de faciliter l’exploration des différentes URLs de votre site que vous souhaitez faire explorer et indexer, vous avez tout intérêt à y renseigner uniquement des URLs pertinentes.
Par conséquent, il est inutile de lister les URLs sans intérêt pour votre référencement dans votre sitemap. Ne mettez en avant que les pages utiles et indexables.
Par exemple, pour reprendre la thématique du e-commerce, évitez d’indiquer dans votre sitemap les URLs de vos pages panier ou de vos pages filtres. C’est d’ailleurs pour cette raison que toutes ces pages, qui sont également en noindex sur les boutiques WiziShop, ne sont pas présentes dans le fichier.
Ces dernières sont indispensables au bon fonctionnement de votre site marchand. En revanche, elles n'apportent aucune plus-value en termes d'indexation ou de référencement.
Les fichiers supportés dans le sitemap
Certains fichiers sitemaps peuvent contenir des contenus spécifiques tels que des images, des vidéos ou encore des actualités. Dans ce cas, le format XML est obligatoire.
Le fichier sitemap XML recensant les médias ou images n'est que rarement utilisé sur les sites Internet.
Dans la plupart du temps, les images ou les vidéos se trouvent à l'intérieur des pages du site déjà listées dans les URLs du fichier sitemap.
Sur WiziShop, par exemple, les URLs des images présentes sur la fiche produit sont directement renseignées dans le sitemap dédiés aux produits.
L’obligation de créer un sitemap
Le sitemap n'est pas obligatoire lorsque l'on crée un site Web. En revanche, il est vivement recommandé !
Si vous possédez un site vitrine avec 5-10 pages, le sitemap n’est pas une priorité. Mais il devient rapidement indispensable si votre site est volumineux.
Pour le e-commerce par exemple, c’est un fichier incontournable étant donné que le site est très dynamique. De nombreuses catégories y sont fréquemment ajoutées, tout comme de nouveaux articles. Le fichier sitemap est alors essentiel pour faciliter la découverte des nouvelles URLs.
La prise en compte par les moteurs de recherche
Aujourd’hui, les principaux moteurs de recherche Google et Bing prennent en compte le fichier sitemap. Vous pouvez très facilement l’envoyer dans les outils dédiés pour webmaster.
Yandex et Baidu supportent également ce protocole.
Différence entre sitemap et plan du site
Enfin, pour terminer sur les informations intéressantes liées au sitemap, le nom de ce fichier peut porter à confusion avec le plan du site. Il faut donc bien faire la différence entre ces deux éléments.
Le sitemap est exclusivement destiné aux robots des moteurs de recherche. Il n’est pas présent dans l’arborescence standard.
Le plan du site, quant à lui, est conçu pour les internautes. C’est une page, présente souvent dans le footer des sites, qui recense de nombreux liens vers les différentes pages.
Sitemap et SEO
Le fichier sitemap n'améliore pas directement le référencement naturel d'un site Internet. Il ne fonctionne pas comme l’optimisation de votre balise Title ou encore de votre contenu éditorial.
En revanche, il contribue indirectement au SEO :
- Il facilite l’exploration des URLs du site ;
- Il améliore l'indexation des nouvelles URLs récemment mises en ligne ;
- Il permet de faire des analyses SEO avancées ;
- Il aide à détecter les pages orphelines ;
- Il fait comprendre à Google quelles sont les pages à indexer ;
- Il aide à la refonte d'un site, lorsque celui-ci inclut des changements d'URLs ;
- Il accélère la désindexation de certaines URLs.
Faciliter l’exploration des différentes URLs du site
Le fichier sitemap a pour principale vocation de lister toutes les pages importantes du site. Il s'agit donc d'un gain de temps pour les robots crawlers, afin de leur faire découvrir rapidement vos URLs pertinentes.
Au passage, le sitemap vous permet aussi de vérifier votre couverture d’indexation dans l’outil Search Console de Google.
Dans ce rapport, vous pouvez voir assez facilement si le moteur de recherche a rencontré des problèmes lors de l’exploration de certaines pages. Les erreurs les plus fréquemment rencontrées sont les suivantes :
- Certaines URLs du fichier sitemap ne peuvent pas être explorées, notamment si elles sont préalablement bloquées pour l'exploration par le fichier robots.txt ;
- Certaines URLs peuvent être redirigées ou en erreur (301 ou 404 par exemple) ;
- Certaines URLs que Google refuse d'indexer (contenu très faible, contenu dupliqué, etc.).
Accélérer la découverte des nouvelles URLs
Lorsque de nouvelles pages sont ajoutées sur un site Internet, cela peut prendre un certain temps avant que celles-ci ne soient explorées et indexées sur les moteurs de recherche.
En ajoutant vos dernières URLs à votre sitemap, vous accélérez ce processus.
Désindexer plus rapidement de nombreuses URLs
Même si la vocation première du sitemap et d'indiquer les URLs à crawler et indexer, il permet aussi de désindexer de nombreuses URLs.
En créant un sitemap spécifique, répertoriant toutes les pages de votre site possédant une balise noindex, il devient un outil de désindexation de masse et permet de gagner du temps en cas de suppression de certaines pages.
Il suffit alors de soumettre ce listing à dans l’outil Search Console, ce qui incitera Google a crawler les pages concernées, afin que le moteur de recherche se rende compte par lui-même que ces dernières n'ont plus à être indexées.
Le sitemap spécifique peut ensuite être supprimé, une fois que la désindexation a bien été effectuée.
Découvrir des pages orphelines
Lorsqu'un site Internet dispose d'une structure complexe et qu'il est très volumineux, il n'est pas rare que certaines de ses pages soient orphelines.
Autrement dit, ces dernières peuvent être présentes dans le sitemap, mais totalement absentes de la structure du site. Sans lien interne, la page récupère très peu, voire pas du tout, de PageRank.
Dans ce cas, en croisant les URLs de votre fichier sitemap et un crawl de votre site, vous pouvez identifier si des pages ne contiennent aucun lien interne.
Si vous constatez que certaines pages de votre sitemap sont totalement absentes du crawl, cela signifie qu'il s'agit de pages orphelines. Si vous en détectez, il convient de corriger cette anomalie.
Différentes techniques SEO, utilisant le sitemap et présentées ici, sont directement inspirées de l’excellent article rédigé par Olivier Duffez : 9 techniques avancées basées sur les sitemaps. Je vous invite à le consulter si vous voulez en découvrir davantage !
Comment déclarer son sitemap ?
Lorsqu'un fichier sitemap ou index de sitemap est créé, il doit être déclaré auprès des outils pour webmaster comme Google Search Console et Bing webmaster tools.
Comment déclarer son sitemap dans Google Search Console ?
Pour déclarer ces différents éléments, il vous suffit de vous rendre sur l'interface de Google Search Console. Celle-ci est spécialement conçue pour vous permettre de faire cette déclaration et de consulter ensuite toutes les statistiques qui lui sont associées.
Pour envoyer un sitemap, les étapes sont les suivantes :
- Sélectionnez la bonne priorité de votre site ;
- Cliquez sur l’onglet Sitemaps ;
- Indiquez l’URL de votre sitemap dans le champ adapté ;
- Cliquez sur le bouton « Envoyer ».
Dès la déclaration de votre fichier sitemap réalisé, ce dernier sera analysé par Google.
Comment déclarer son sitemap dans Bing Webmaster Tools ?
Ici, le procédé est très similaire à celui de Google Search Console. Une fois que votre propriété est bien validé, il vous suffit d’appliquer les étapes suivantes :
- Sélectionnez la bonne priorité de votre site ;
- Cliquez sur l’onglet Sitemaps ;
- Cliquez sur “Envoyer le sitemap”
- Indiquez l’URL complète de votre sitemap dans le champ adapté ;
- Cliquez sur le bouton « Envoyer ».
Le sitemap sur les boutiques WiziShop
Enfin, pour terminer cet article, je vais vous présenter l’index de sitemap dont disposent toutes les boutiques WiziShop. Celui-ci est généré et mis à jour automatiquement.
Le fichier d'index de sitemaps a une apparence très proche du fichier sitemap classique.
- « sitemapindex », qui se place au début et à la fin du fichier ;
- « sitemap », qui est une balise parent pour chaque sitemap du fichier ;
- « loc », qui indique la localisation de chaque sitemap ;
Comme vous le voyez ci-dessus, chaque section de votre boutique en ligne dispose de son propre sitemap :
- Les pages produits
- Les pages catégories
- Les pages informatives (accueil, Mentions Légales, CGV, qui sommes-nous, etc.)
- Le blog (accueil du blog, catégories du blog)
- Les articles de blog
L’index de sitemaps des boutiques WiziShop est composé au maximum de 5 liens vers les 5 sitemaps. Si vous ne possédez pas de blog, le sitemap blog et le sitemap des articles ne sera, bien entendu, pas affiché.
Au sein du sitemap produits, nous avons également ajouté les images présentes sur chaque fiche produit. Ce qui facilite l’accessibilité à l’ensemble des photos produits pour les moteurs de recherche et augmente vos chances de bien vous positionner dans les résultats images.
Vous l'aurez compris, la présence d'un sitemap ne conditionne pas la réussite d'un site Internet ni son référencement. Cependant, il s'agit d'un outil précieux pour améliorer l'exploration et l'indexation de vos pages par les différents moteurs de recherche.
Grâce au sitemap, les robots crawlers disposent d'un accès facilité à certaines pages, ce qui s'avère très précieux dans le cadre d’un site e-commerce dynamique.
Compte tenu du nombre croissant de sites présents sur Internet et de la facilité à générer aujourd’hui des sitemaps, autant en profiter !