Qu’est-ce qu’un sitemap ?
En français, on pourrait simplement traduire sitemap, par plan de site.
En fait, un Sitemap est la liste des pages de notre site web que l’on souhaite voir indexer par les moteurs de recherche.
Il peut également contenir les informations détaillées des pages, leurs relations et leur contenus (image, vidéo). Il peut ainsi être représentatif de l’architecture d’un site.
Il se présente sous la forme d’un fichier XML, mais il peut également sous format fichier texte.
C’est à l’origine une initiative de Google, en 2005, suivi aussitôt en décembre 2006 par les moteurs leader à l’époque (Microsoft avec Live Search évolué en Bing, et Yahoo)
les sitemaps sont désormais pris en compte par les autres moteurs de recherche :
- Google : dans la Search Console
- Bing (et donc Yahoo) : dans Bing Webmaster Tools
- Baidu : dans Baidu Webmaster Dashboard
- Yandex : dans Yandex Webmaster
Pourquoi avoir un sitemap ?
Des robots crawler (d’indexation) sont utilisés par les moteurs de recherche, pour explorer le web et analyser les pages.
L’indexation des pages leur permet de répondre au mieux possible aux requêtes des internautes.
- En soumettant un sitemap au moteur de recherche, on propose l’indexation de nos pages. Attention cela se fait manuellement par exemple, pour Google via la Search Console, ou Bing/Yahoo via la Bing Webmaster Tools.
- Même si le moteur de recherche en a connaissance, il n’y a aucune garantie que tous les liens contenus dans ces fichiers seront indexés. Ainsi que Google nous précise sur son site web
Qui en a besoin, pour quel site ?
C’est en général conseillé pour tous les sites.
On considère habituellement que les petits sites peuvent s’en passer (selon Google, un petit site fait moins de 500 pages). Par contre les gros sites ont tout intérêt à en créer un afin d’améliorer l’exploration de leurs différentes pages.
C’est spécialement recommandé :
- Lorsque aucun lien externe accède au site : Dans ce cas les robots crowler risquent de ne pas le détecter;
- Les robots fonctionnent sur le maillage interne, les sites dont les pages ne sont pas liées naturellement peuvent améliorer leur référencement grâce à un sitemap;
- Les sites d’actualité afin que l’indexation soit plus rapide;
- Afin de désindexer des pages (par exemple, des pages dupliquées qui provoquent du duplicate-contain .
Que peut contenir un sitemap ?
En premier lieu, avant de se lancer dans la création du sitemap, il faut réfléchir au contenu qu’on souhaite soumettre à Google. Quelles pages veux t’on y voir figurer. S’interroger sur la pertinence d’une page est se demander elle répond à une question qui peut être posée au moteur de recherche. Le contre-exemple type est la page mention légale, elle ne correspondra jamais à une recherche, il vaut mieux éviter de l’intégrer au sitemap.
En soumettant un sitemap, on indique que les pages qui y sont répertoriées sont de qualité, et correspondent à un besoin. Nous devons donc être rigoureux dans nos choix.
Sin nos pages sont réellement de qualité (selon Google) nous augmentons nos chances de les voir apparaître dans les SERP (résultat des moteurs de recherche).
Exemple de sitemap :
https://www.sitemaps.org/ nous précise l’ensemble du protocole.
<urlset> | obligatoire | Encapsule le fichier et fait référence à la norme de protocole actuelle. |
<url> | obligatoire | Balise parent pour chaque entrée d’URL. Les balises restantes sont des enfants de cette balise. |
<loc> | obligatoire | URL de la page. Cette URL doit commencer par le protocole (tel que http) et se terminer par une barre oblique finale, si votre serveur Web l’exige. Cette valeur doit être inférieure à 2 048 caractères. |
<lastmod> | optionnel | La date de la dernière modification du fichier. Cette date doit être au format W3C Datetime . Ce format vous permet d’omettre la partie heure, si vous le souhaitez, et d’utiliser AAAA-MM-JJ. Notez que cette balise est distincte de l’en-tête If-Modified-Since (304) que le serveur peut renvoyer, et les moteurs de recherche peuvent utiliser les informations des deux sources différemment. |
<changefreq> | optionnel | La fréquence à laquelle la page est susceptible de changer. Cette valeur fournit des informations générales aux moteurs de recherche et peut ne pas correspondre exactement à la fréquence à laquelle ils explorent la page. Les valeurs valides sont : toujours toutes les heures du quotidien hebdomadaire mensuel annuel jamais La valeur « toujours » doit être utilisée pour décrire les documents qui changent à chaque accès. La valeur « jamais » doit être utilisée pour décrire les URL archivées. Veuillez noter que la valeur de cette balise est considérée comme un indice et non comme une commande. Même si les robots des moteurs de recherche peuvent tenir compte de ces informations lorsqu’ils prennent des décisions, ils peuvent explorer les pages marquées « toutes les heures » moins fréquemment que cela, et ils peuvent explorer les pages marquées « annuelles » plus fréquemment que cela. Les robots d’exploration peuvent parcourir périodiquement les pages marquées « jamais » afin de pouvoir gérer les modifications inattendues de ces pages. |
<priority> | optionnel | La priorité de cette URL par rapport aux autres URL de votre site. Les valeurs valides vont de 0,0 à 1,0. Cette valeur n’affecte pas la façon dont vos pages sont comparées aux pages d’autres sites. Elle permet uniquement aux moteurs de recherche de savoir quelles pages vous jugez les plus importantes pour les robots. La priorité par défaut d’une page est de 0,5. Veuillez noter que la priorité que vous attribuez à une page n’est pas susceptible d’influencer la position de vos URL dans les pages de résultats d’un moteur de recherche. Les moteurs de recherche peuvent utiliser ces informations lors de la sélection entre les URL sur le même site, vous pouvez donc utiliser cette balise pour augmenter la probabilité que vos pages les plus importantes soient présentes dans un index de recherche. Notez également que l’attribution d’une priorité élevée à toutes les URL de votre site ne vous aidera probablement pas. La priorité étant relative, elle n’est utilisée que pour sélectionner les URL de votre site. |