Accueil/Guide/Technique/Générez un sitemap et améliorez l’exploration de votre site par les robots

Comment créer un bon sitemap ? Nous vous donnons toutes les astuces dans cet article.

Sommaire

Qu’est-ce qu’un sitemap ?

Un plan du site, aussi appelé sitemap en anglais, est un fichier qui fournit aux moteurs de recherche des informations détaillées sur toutes les pages, leurs relations et leurs contenus (images, vidéos…). Il aide Google et les autres moteurs de recherche à crawler un site de manière plus intelligente. Chaque élément contenu dans la liste est relié directement aux catégories correspondantes du site. D’une façon générale, le sitemap est conseillé pour tous les sites, mais les petits sites vitrines ne contenant que quelques pages peuvent toutefois s’en passer. Les gros sites ont tout intérêt à en créer un pour améliorer l’exploration de leurs pages par les moteurs de recherche. Le sitemap est également recommandé pour les sites présentant des faiblesses au niveau de leur maillage interne. Certaines pages peuvent en effet être difficilement accessibles car elles ne sont pas liées naturellement. Le plan de site est également utile pour les nouveaux sites qui ne reçoivent que peu de backlinks, ce qui n’incite pas Google à parcourir l’intégralité du site.
Attention, s’il est tentant de faire le raccourci sitemap = indexation de toutes les pages, en réalité il n’a qu’une influence indirecte. Il permet simplement d’aider Google à trouver les pages, mais lui seul sera juge de leur qualité et de l’utilité de les indexer. Ceci-dit, en soumettant un sitemap XML dans la Google Search Console, vous dites en quelque sorte à Google quelles sont les pages que vous considérez comme des pages de qualité. Si elles le sont vraiment, vous mettez alors toutes les chances de votre côté pour les voir apparaître dans les SERP.

[bctt tweet= »Le sitemap aide Google et les autres moteurs de recherche à crawler un site de manière plus intelligente. » username= »smartkeyword_io »]

Que peut contenir un sitemap ?

Avant de vous lancer dans la création d’un plan de site, il faut vous demander quelles pages méritent d’y figurer. Commencez toujours par réfléchir à la pertinence d’une URL : constituerait-elle un bon résultat sur Google ? Répond-elle à un besoin ? Si tel n’est pas le cas, alors il ne faut pas l’intégrer. Toutefois, cela ne voudra pas dire qu’elle ne sera pas indexée ni crawlée. Si vous souhaitez définitivement l’exclure des résultats de recherche, la balise meta noindex s’impose.

Les URLs internes du site

L’utilité première du sitemap est de lister simplement les URLS internes d’un site. L’avantage du format XML est qu’il permet d’ajouter des métadonnées, qui viendront enrichir cette liste d’URLS.
On peut notamment ajouter :

  • Une notion de temporalité, comme la date de la dernière modification de l’URL.
  • La fréquence de modification.
  • Le degré d’importance de l’URL dans le maillage interne du site.

Bien sûr, comme toujours Google reste très flou quant au réel impact de ces métadonnées. Mais dans le doute, pourquoi s’en priver ?

Sitemap-XML

Les images et vidéos

Le sitemap XML médias ou image n’est pas toujours utile pour la majorité des sites. En effet, les images et médias se retrouvent habituellement dans les pages de vos sites déjà présentes dans la liste des URLS de votre sitemap. Ils sont donc explorés en même temps que la page. Certains sites font toutefois exception, comme ceux construits sous forme de portfolio (souvent le cas chez les photographes ou les graphistes). Dans ces cas-là, montrer un sitemap XML pour distinguer les médias et les images des pages de contenu textuel peut s’avérer judicieux.
Pour fournir à Google des informations utiles concernant vos images, vous devez ajouter des détails pertinents au plan du site standard. Cela comprend notamment le type d’image, le sujet, la légende, le titre, l’emplacement …

Comment créer un sitemap ?

  • Manuellement, en créant un fichier XML. Cette méthode est généralement à déconseiller, sauf si vous savez vraiment ce que vous faites ! Au minimum il est conseillé d’utiliser un éditeur XML pour créer ce fichier.
  • En faisant un développement informatique spécifique à votre site : cette méthode sera la plus puissante et s’adaptera à toutes les problématiques de vos sites. Mais c’est aussi la plus coûteuse en ressource. Attention aux nombre maximum d’URLs dans un fichier sitemap, il faut parfois pouvoir segmenter en plusieurs fichiers.
  • En utilisant un outil de génération automatique de site map (se trouve facilement sur Google) . Cette méthode est tentante : très peu de travail pour un résultat professionnel ! Mais attention elle présente un inconvénient de maintenabilité car si on change quelque chose il faut relancer le générateur à chaque fois.

Règles à suivre :

  • Le fichier XML doit être enregistré en UTF-8.
  • Un sitemap ne peut lister qu’au maximum 50 000 URL et la taille du fichier XML ne doit pas dépasser 50 Mo (52 428 800 octets).
  • Toutes les URL listées dans un fichier sitemap XML doivent provenir du même hôte, tel que mon-domaine.fr par exemple

Votre sitemap doit respecter un format structuré, appelé format XML (où l’extension sitemap.xml).
Si vous utilisez un CMS standard comme WordPress, Joomla, Magento, Prestashop ou Drupal, il existe des plugins qui génèrent votre sitemap très facilement et vous permettent de le télécharger sur la Search Console de Google.

Générer un sitemap sur WordPress avec Yoast SEO

La création d’un sitemap avec le module Yoast SEO est rapide et intuitive :
– Téléchargez, installez et activez le plugin Yoast SEO (Plugins > ajouter nouveau).
– Dans le menu de gauche WordPress, allez dans SEO > Général puis sélectionnez l’onglet Caractéristiques
– Faites défiler vers le bas jusqu’à XML sitemaps et activez le sitemap. Enregistrez.
Si vous souhaitez uniquement générer un sitemap standard, vous n’avez pas d’autres manipulations à effectuer.
Si vous souhaitez le modifier :
À partir du tableau de bord, cliquez sur SEO > Rechercher l’apparence.
Choisissez le type de contenu que vous souhaitez voir apparaître dans votre sitemap en activant ou désactivant le bouton.
Il vous est également possible d’exclure des posts ou des pages spécifiques :
Rendez-vous sur la page en question et faites défiler vers le bas jusqu’à l’encart Yoast SEO.
Cliquez sur le petit engrenage pour modifier les paramètres.
Dans le menu « Autoriser les moteurs de recherche à afficher cette page dans leurs résultats de recherche », sélectionnez « non » et enregistrez.

NB : attention aux conséquences liées à cette manipulation qui doit être réfléchie en amont. Généralement, il est préconisé d’exclure des pages comme les mentions légales qui n’ont pas vocation à être indexées.

Générer un sitemap sur Prestashop

Google Sitemap est le module gratuit le plus utilisé pour générer un sitemap sur un Prestashop. Il est téléchargeable sur Github.

Dans le panneau d’administration > Modules et services, tapez gsitemap.

Une fois installé, cliquez sur « Configurer », vous obtiendrez un formulaire dans lequel il faudra indiquer la fréquence moyenne de mise à jour de votre commerce en ligne. Le module prendra compte chaque modification pour rafraîchir le sitemap.
Les cases à cocher suivantes proposées dans le formulaire vous permettent d’exclure certaines pages lors de la génération du sitemap. Comme sur Yoast SEO sur WP, il est recommandé de cocher uniquement les pages qui n’ont pas d’intérêt en termes de référencement naturel : panier, compte client, historique de commande, mentions légales etc.

Une fois vos pages sélectionnées, cliquez ensuite sur le bouton « Generate sitemap ». Il faut patienter quelques minutes avant la finalisation du sitemap.

Générer un sitemap sur Drupal

Le module Views constitue une méthode rapide mais un peu plus complexe pour générer un sitemap sur Drupal. Il suffit pour cela de :

  • Créer la vue avec les éléments que l’on souhaite voir dans le sitemap ; puis dans les options de pagination, sélectionner les options de pagination et sélectionner « Display all items ».
  • Configurer la sortie en XML en allant dans Format > XML Data document. Dans la page de paramètre qui s’affiche, indiquer :

urlset xmlns= »http://www.sitemaps.org/schemas/sitemap/0.9″ dans le champ Root element name URL dans le champ Top-level child element nameAppliquer les modifications

Attention, il faut penser à modifier le chemin dans Page settings en sitemap.xml.

  • Ajouter le champ Content : path dans « Fields ».
  • Indiquer loc dans le champ label.
  • Dans Rewrite Result > cocher la case « Use Absolute link ».
  • Appliquer.
  • Ajouter ensuite le champ Content : updated date.
  • Dans le champ « label », indiquer « lastmod » puis sélectionner le format de date Custom avec le format suivant : Y-m-d
  • Appliquer.

Générer un sitemap sur Joomla

Nous vous recommandons l’extension OSMap Joomla Sitemap qui est la plus populaire et la plus simple d’utilisation. Elle se télécharge depuis la page d’OSMap.
– Dans votre espace administrateur Extensions > Gérer > Installer OSMap via l’installateur de Joomla.
– Dans Composants > OSMap. Vous devriez voir une page avec 2 menus latéraux « Sitemaps » et « Extensions ».
– Cliquez sur « Plan du site par défaut » et sélectionnez tous les éléments que vous voulez que les moteurs de recherche trouvent. Enregistrez.
– Cliquez sur « Extension » dans le menu du gauche, puis sur « OSMap – Joomla Content ».
– Autorisez les moteurs de recherche à trouver votre plan du site Joomla.

Générer un sitemap sur Magento

Dans le panneau d’administration de Magento et accédez à l’onglet Catalogue -> Google Sitemap.

  • Cliquez sur le bouton Ajouter.
  • Tapez sitemap.xml dans le champ Nom de fichier. Le champ Chemin d’accès définit dans quel répertoire du serveur le fichier sitemap.xml sera enregistré. Habituellement, le fichier est enregistré dans le répertoire racine de Magento, dans ce cas, insérez seulement la barre oblique « / » dans le champ.
  • Dans le champ Vue magasin, sélectionnez la vue magasin pour laquelle vous configurez le plan du site.
  • Enregistrez.

Paramétrer le sitemap dans la Google Search Console

Une fois que vous aurez généré votre sitemap sur votre CMS, il est important de l’importer sur votre compte Google Search Console afin qu’il soit bien pris en compte.

L’import du plan de site est très rapide :

  • Connectez-vous à Google Search Console.
  • Sélectionnez le site web concerné.
  • Développez la section « Index », puis cliquez sur «Sitemaps ».
  • Entrez sitemap_index.xml dans la zone de texte qui apparaît.
  • Cliquez sur Soumettre.

Et c’est tout ! Bien sûr, si votre sitemap change régulièrement, il faut penser à le mettre à jour dans la GSC.

Nos conseils pour optimiser son utilisation

Faites des sitemaps selon les types de pages (les catégories les produits..).

Pour les gros sites qui ont besoin d’un fichier sitemap, vous pouvez en faire de 2 types :

  • 1 listant les dernières pages créées (pour tenter de gagner en vitesse d’indexation)
  • 1 par type de pages (pour essayer de mesurer le taux d’indexation par types de pages, par exemple fiches produits, catégories, articles éditoriaux, etc.)

Faites des sitemaps par langue et/ou par pays

Si vous avez un site multilingue, c’est une bonne idée de séparer votre sitemap (ou vos sitemaps) en plusieurs : un par langue. Si vous avez plusieurs sitemaps (par types de pages), re-découpez par langues.

Si vous avez un site qui cible plusieurs pays, là aussi vous avez intérêt à les séparer.

Dans les 2 cas, l’idée est de faciliter l’étude du taux de pages indexées selon les types de pages, les langues et les pays.

Informations techniques :

  • Sitemap XML : la balise <urlset>

La balise <urlset> est obligatoire. Elle englobe le fichier sitemap et référence le standard de protocole utilisé.

  • Sitemap XML : la balise <url>

La balise <url> est également obligatoire. Elle représente la balise parent pour chaque URL référencées.

  • Sitemap XML : la balise <loc>

La balise <loc> est la dernière des trois balises obligatoires. Elle représente l’URL de la page. Celle-ci doit commencer obligatoirement par l’intitulé du protocole (http://, https://) et ne doit pas comporter plus de 2048 caractères.

  • Sitemap XML : la balise <lastmod>

La balise <lastmod> est facultative. Elle informe de la date de la dernière modification du fichier/page. Cette date doit être au format date et d’heure du W3C. Pour une question de simplicité, on utilise généralement le format AAAA-MM-JJ

  • Sitemap XML : la balise <changefreq>

La balise <changefreq> est également facultative. Elle représente la fréquence de modification de la page. Cette valeur fournit aux moteurs de recherche une information générale et est considérée comme une indication, et non comme une commande. Même si les robots d’exploration des moteurs de recherche peuvent tenir compte de cette information, ils ne l’appliquent pas nécessairement de façon stricte.

Les valeurs acceptées sont : « always » (toujours), « hourly » (toutes les heures), « daily » (quotidiennement), « weekly » (hebdomadairement), « monthly » (mensuellement), « yearly » (annuellement) et « never » (jamais).

La valeur « always » (toujours) doit être utilisée pour décrire les documents qui changent à chaque accès. La valeur « never » (jamais) doit être utilisée pour décrire les URL considérées comme étant archivées.

  • Sitemap XML : la balise <priority>

La balise <priority> est la dernière des trois balises facultatives. Elle représente la priorité d’une page par rapport aux autres du site. Les valeurs acceptées sont comprises entre 0.0 et 1. Par défaut (sans balise <priority>), la priorité d’une page est égale à 0.5.

Cette valeur permet uniquement de signaler aux moteurs de recherche les pages que vous jugez les plus importantes pour les robots d’exploration.

Le fichier Sitemap XML : audit et correction des problèmes

Vérifier la présence de sitemaps

  • Sur la Google Search Console, allez dans « Sitemaps » sur la droite, puis consulter la liste des sitemaps affichés

sitemap-verification-presence-gsc

  • La liste affiche les noms et types, les dates d’envoi et de dernière lecture ainsi que l’état et le nombre d’URLs découvertes :

sitemap-envoyes-gsc

S’il y a un ou plusieurs sitemaps affichés :

Vérifiez les informations :

  • Si certains présentent des erreurs au lieu de « Opération effectuée » : vérifiez avec votre équipe technique ce qui ne va pas et le corriger.
  • Si le nombre d’URLs découvertes ne correspondent pas : ouvrez le sitemap avec l’URL indiquée sur la colonne « Sitemap » tout à gauche puis vérifiez si le compte est bon.
    ==> Vérifiez ensuite que les URLs présentes dans le(s) sitemap(s) ne sont pas désindexées (balise meta robots noindex) ou bloquées par le robots.txt. Dans ce cas, les retirer du sitemap.
    ==> Vérifiez ensuite que les URLs présentes dans le(s) sitemap(s) sont à jour. Comme le sitemap n’est pas obligatoire à l’indexation, ce n’est pas bloquant qu’il ne soit pas à jour. En revanche, il ne faut pas attendre trop longtemps et essayer de le garder à jour au maximum possible car cela permet de repérer bien plus facilement les pages indexées hors sitemap et donc de maîtriser l’indexation de son site.

S’il n’y a pas de sitemap envoyé :

Vérifier auprès de votre équipe technique s’il n’existe pas un sitemap non déclaré.
Vous pouvez aussi tester par vous-même en cherchant dans votre navigateur « mondomaine.com/sitemap.xml », mais ce n’est pas un test garanti car le sitemap peut avoir un autre nom, et vous pourriez en avoir plusieurs.

Dans le cas où votre équipe technique répond par la négative : si votre site présente plus de 5000 pages, nous vous recommandons d’ajouter un sitemap afin d’indiquer à Google la priorité de crawl des pages et pour y voir plus clair dans votre indexation.

Vous pouvez créer plusieurs sitemaps : par langue, par catégorie de produits, etc.

Si vous avez un site plus petit, vous pouvez également en créer un : l’intérêt ici est principalement d’avoir un rapport d’URLs valides clair et suivre l’indexation. Il peut aussi permettre de faire découvrir vos pages plus vite si vous êtes en création de pages et que votre site est encore très jeune.

Les erreurs fréquentes lors de la génération du sitemap

Mauvais protocole utilisé

Il arrive que le plan du site n’utilise pas le format URL. Par exemple, il n’inclut pas « www » ou affiche « http » au lieu de « https ».
Si vous avez récemment changé de format d’URL, il se peut que vous ayez mal formaté les URL ou oublié de faire la mise à jour du sitemap (en particulier si vous n’utilisez pas un CMS « maison »).

Mauvaise implémentation des règles de réécriture

Lorsque le sitemap ne fonctionne pas sur un serveur Apache ou Nginx, il est fort probable qu’il y ait une erreur au niveau de l’implémentation des règles d’écriture.

Intégration d’URLS interdites à l’indexation

Parfois, sans s’en apercevoir, on génère un sitemap contenant des URLS bloquées dans le robots.txt. Mais en règle générale, Google indique ce genre d’erreurs. Cela peut vous permettre aussi de vous rendre compte d’éventuelles erreurs dans votre fichier robots.txt.

Ne pas segmenter son sitemap

De base, le fichier sitemap.XML impose un nombre limité correspondant à 50 000 URLS au maximum.
Les gros sites sont donc parfois dans l’obligation de segmenter leur fichier en plusieurs sitemaps pour passer en dessous de cette limite. Mais cette segmentation est aussi importante pour la gestion du sitemap et pour tout simplement s’y retrouver ! La clé est de structurer vos sitemaps en fonction de la profondeur de vos pages et par catégorie, vous pourrez ainsi mieux diagnostiquer certains problèmes, d’autant plus si votre site est multilingue.

Conclusion

Même si cela ne conditionne pas directement la réussite de votre site, prendre le temps de construire un sitemap cohérent est donc nécessaire pour améliorer l’exploration de vos pages par les différents moteurs de recherche. En leur donnant plus facilement accès à certaines pages profondes, vous mettrez toutes les chances de votre côté pour les voir un jour indexées dans les SERP.

   Article rédigé par Louis Chevant

Complétez votre lecture

Le guide de l’audit technique SEO

Méthode pas à pas pour réaliser un audit technique de votre site.

Télécharger gratuitement