Balise meta robots : maitrîser son indexation gràce à cette balise ?

La balise meta robots permet deux choses : indiquer au moteur qu’il ne doit pas indexer un contenu, mais également (et de façon complémentaire) que le robot ne doit pas suivre les liens qu’il rencontre dans ce contenu. L’une et/ou l’autre de ces deux options sont possibles.

Sommaire

Qu’est-ce que la balise meta robots ?
Comment mettre en place la balise meta robots dans son header ?
Les différentes directives de la balise meta robots et leurs impacts
Balise meta robots : les erreurs les plus fréquentes
S’assurer de la conformité les balises meta robots de son site

Qu’est-ce que la balise meta robots ?

La balise meta robots est présente sur tous les sites web. Elle guide les moteurs de recherche grâce à un certain nombre d’informations. Ce morceau de code est situé dans le head de la page, autrement dit, dans « l’entête » du code(à ne pas confondre avec l’entête HTTP). Cette petite balise possède une grande incidence sur les pages. Elle donne en effet le pouvoir de décider des pages qui doivent être vues et explorées par les moteurs de recherche et celles qui doivent être cachées et interdites à l’indexation. Elle est donc indispensable, mais à utiliser avec précaution.

balise-meta-robots-illustration

La balise meta robots peut aussi s’utiliser sur les liens internes, dans le cadre du pagerank sculpting. Longtemps utilisée (à tort) pour gérer la navigation à facettes et la pagination, elle démontre aujourd’hui son intérêt pour les liens sortants externes. Par exemple, si un site e-commerce crée une page sur la marque Nike, il peut être amené à faire un lien pointant vers le site Nike. Ici, la balise meta robots permet de conserver le jus SEO de la page (qui provient du maillage interne du site et des différents liens externes). Toutefois, cette méthode ne fait pas l’unanimité auprès des référenceurs. Certains font suffisamment confiance à Google et estiment que l’impact de cette déperdition de jus serait faible voire inexistante. Ils considèrent également que cela fait partie d’un netlinking naturel et que la balise meta robots n’est pas indispensable, sauf si les liens sortants sont très nombreux. D’autres préfèrent jouer la carte de la prudence en utilisants systématiquement la meta robots.

Comment mettre en place la balise meta robots dans son header ?

L’intégration de cette balise est simple et rapide. Elle nécessite pour cela d’avoir accès au code d’une page ou d’un ensemble de pages, puis de :

Copier-coller l’ensemble du head sur un document séparé. Il existe des éditeurs HTML adaptés à l’écriture de code, comme SublimeText qui met par exemple en exergue les balises mal fermées.
Intégrer la balise comme indiqué ci-dessous

balise-meta-robot-header

Fournir des directives relatives aux user-agents

Bien que cette balise soit standard, vous pouvez également fournir des directives à des robots spécifiques en remplaçant les « robots » par le nom d’un user-agent spécifique. Ceci est par exemple utile lors de crawls de pré-production ou si vous souhaitez empêcher certains crawlers lancés par des concurrents d’explorer votre site.

balise-meta-robots-user-agent-specifique

Si vous souhaitez utiliser différentes directives de balises meta robots pour différents user-agents de recherche, il faut alors les séparer pour chaque user-agent.

La balise X-robots-tag, une alternative plus fine à la meta robots

Si la balise meta robots agit sur le comportement d’indexation de la page entière, la balise x-robots-tag peut être directement incluse dans l’entête HTTP et permet de contrôler l’indexation de certains éléments uniquement. Elle offre donc les mêmes possibilités que la meta robots, avec plus de flexibilité. Vous pouvez par exemple l’utiliser pour bloquer les fichiers non html comme les images, les vidéos ou le flash (même s’il est devenu anecdotique). Pour l’ajouter aux réponses HTTP, vous devez utiliser les fichiers.htaccess et httpd.conf. Cela se présente comme ceci :

HTTP/1.1 200 OK

Date : Tue, 25 NOVEMBER 2018 21:48:34 GMT

(…)

X-Robots-Tag : googlebot : nofollow

X-Robots-Tag : otherbot : noindex, nofollow

Comme pour la meta robots, vous pouvez utiliser d’autres directives pour votre page comme nosnippet, noodp, notranslate etc. Si vous ne voulez pas utiliser robots.txt ou robots meta tag, ou si vous avez besoin de bloquer du contenu non-HTML, alors utilisez X-Robots-Tag. Vous trouverez plus d’informations.

Les différentes directives de la balise meta robots et leurs impacts

Cette balise meta robots se décline en quatre fonctions principales pour les crawlers des moteurs de recherche.

Les directives Follow et Nofollow

balise-meta-robots-follow-nofollow

Ces directives sont d’une importance capitale. Pour mieux comprendre leurs enjeux, imaginez que votre site est en forme d’entonnoir et pourvu de petits trous disséminés un peu partout. Le haut de l’entonnoir représente votre page d’accueil. Les petits trous sont tous vos liens internes. Imaginez ensuite que l’on verse du liquide tout en haut de votre site, depuis votre page d’accueil. Si tous les liens sont en Follow, le liquide va poursuivre sa route et alimenter les pages plus profondes de votre site. En revanche, si tous les liens sont en Nofollow, alors le liquide s’arrêtera net et n’alimentera pas les autres pages. Et ces pages peuvent être comparées à des plantes ! Sans eau, elles ne survivront pas.

Après cette comparaison bucolique, reprenons avec des termes plus techniques. Il fût un temps, Google utilisait une métrique appelée PageRank pour calculer la pertinence des pages d’un site. Elle prenait en compte le maillage interne mais également des liens externes (off-site). Il s’agit aujourd’hui d’une métrique désuète mais qui a été reprise par des solutions SEO pour évaluer la pertinence des pages au sein du maillage interne. Ces solutions comme Botify, Oncrawl ou Screaming Frog Spider envoient un crawler sur les sites qui suit les directive de la meta robots. Celui-ci permet de s’assurer que la balise est correctement utilisée.

Les directives Index et Noindex

Ces deux directives sont celles qui peuvent causer le plus de dégâts lorsqu’elles sont mal gérées. Elles servent tout simplement à indiquer à Google si la page doit figurer dans son index ou non. Vous imaginez donc qu’en intégrant par erreur un « noindex » dans le header d’une page stratégique (comme la page d’accueil, pour les moins chanceux !), les conséquences peuvent être dramatiques. À l’inverse, le « noindex » peut être utilisé pour éviter le contenu dupliqué (même si c’est une méthode relativement… sale !). On retrouve cette technique sur les sites e-commerce qui ne gèrent pas la réécriture d’url (url rewriting) et qui se retrouvent avec plusieurs chemins pour une même page. Les liens vers les chemins dupliqués sont alors mis en nofollow et les pages de destination en noindex. Une page qui serait donc en « index » créerait du contenu dupliqué, sévèrement sanctionné par ce cher ami Google Panda. Mais rappelons encore une fois que cette technique n’est pas propre du tout ! Il s’agit au mieux d’une rustine temporaire. Le « noindex » n’empêche pas l’exploration de la page par Google. Or, ce dernier alloue à nos sites un budget crawl qu’il est important d’utiliser à bon escient. Il n’y a donc aucun intérêt à gâcher des crawls sur une page qu’on ne souhaite pas indexer. Par extension (et par expérience !), nous pouvons aussi affirmer que le « nofollow » n’empêche pas non plus les GoogleBots de crawler les pages de destination. Il y a pour cela 2 raisons principales :

Les liens entrants (c’est à dire pointant vers cette page) étaient jadis en follow. Par conséquent, Google a déjà crawlé la page et connaîtra le chemin même si vous coupez les liens. Bien sûr, au bout d’un certain temps il arrêtera de la crawler, mais cela peut prendre des mois !
Des liens sont envoyés depuis des sites externes. Dans ce cas, on ne peut rien faire à part demander le retrait des liens, ce qui a généralement peu de chances d’aboutir.

Il existe enfin la directive « noimageindex » qui interdit aux moteurs de recherche d’indexer les images sur la page. Si les images proviennent d’un autre site, les moteurs de recherche peuvent toujours les indexer. Dans ce cas, il est conseillé d’utiliser plutôt le X-robots-tag.

La directive Noarchive

balise-meta-robots-noarchive

Cette directive impacte directement la mise en cache de Google. Un cache, c’est simplement une sauvegarde de votre page au moment où le robot est passé. Sur le papier, cela semble sécurisant et pratique. Même en cas de maintenance, les internautes peuvent avoir accès à la page en cache. Mais il présente certains inconvénients notamment pour les e-commerces dont les pages évoluent en permanence (prix, disponibilité des produits…). Tous les webmasters ne trouvent donc pas leur intérêt dans le cache Google. Pour le contrer, ils peuvent avoir recours à la directive Noarchive. Cette balise supprime uniquement le lien « Cache » de la page. Google continuera à indexer la page et à afficher un extrait.

Ce n’est pas un peu risqué de se rebeller contre Google ?

Officiellement, Google affirme qu’il n’y a aucune conséquence quant à l’utilisation de cette balise. Mais d’un point de vue UX, il est préférable de ne pas trop s’amuser avec si on n’en maîtrise pas les rouages.

La directive Nosnippet

Il existe les snippets et les rich snippets. Les snippets correspondent simplement aux données des sites qui apparaissent dans les SERP (=résultats de recherche) : l’url, le titre, la Meta description … Les rich snippets (ou extraits enrichis), apportent davantage d’informations comme le prix, la disponibilité, les notations, le nombre de calories pour les recettes de cuisine etc !

La balise Nosnippet indique à Google de ne pas afficher ces données sous la page dans les résultats de recherche et empêche la mise en cache.

La directive Noodp

Les Meta descriptions peuvent être remplies par nos soins ou gérées par Google. Si celle-ci est vide et que votre site est listé dans DMOZ les moteurs de recherche afficheront des bribes de texte sur votre site tirées de celui-ci. Vous pouvez forcer le moteur de recherche à ignorer les informations de l’ODP en incluant une balise meta robots comme celle-ci :

Mais qu’est ce que l’annuaire Dmoz ?

DMOZ était le plus grand des annuaires édités par l’Homme avec plus de 4 millions de sites Web répertoriés. Il était construit et alimenté par une vaste communauté mondiale d’éditeurs bénévoles. Les performances des nouveaux moteurs de recherche ont conduit au déclin de Dmoz qui a fini par disparaître le 14 mars 2017, rendant ainsi la balise Noopd obsolète.

Les directives unavailable_after et no translate

La directive unavailable_after indique aux moteurs de recherche une date/heure après laquelle ils ne doivent pas l’afficher dans les résultats de recherche. On peut la comparer à une version chronométrée du noindex. « Notranslate » empêche quant à elle les moteurs de recherche d’afficher les traductions de la page dans leurs résultats de recherche.

Balise meta robots : les erreurs les plus fréquentes

La confusion noindex Vs disallow

Le noindex empêche à Google d’indexer une page, mais il peut toujours la crawler. Si on souhaite optimiser son budget crawl, le noindex ne sert pas à grand chose. La commande disallow elle, qui s’intègre directement dans le robots.txt, permet de bloquer l’exploration de la page et donc d’économiser du budget crawl ! Si vous souhaitez désindexer une page, il faudra veiller à ajouter le noindex avant le disallow. Sinon comment Google peut-il savoir qu’il doit désindexer cette page, s’il n’a plus accès à sa balise meta robots ?

Placer la balise meta robots en dehors du header

Il est fréquent de voir des balises meta robots dans le body de la page. Or, si Google affirme que ses robots peuvent tout de même la lire, il reste préférable de la laisser dans le header qui est sa place officielle.

Oublier ou mal positionner les espaces et virgules

La plupart des moteurs de recherche arrivent à interpréter la balise même s’il manque les espaces. Par contre, pour Google, les virgules sont très importantes. Sans elles, ses robots n’arrivent pas à la déchiffrer.

S’assurer de la conformité des balises meta robots de son site

Sur des sites vitrines comportant peu de pages, la vérification manuelle est envisageable. Mais avec plusieurs dizaines, centaines ou milliers de pages, seuls des outils adaptés pourront mettre en lumière d’éventuelles anomalies. Les crawlers de ces solutions SEO imitent le comportement des robots de Google. Ils sont ensuite en mesure de déterminer le nombre de liens nofollow ou de pages en noindex. En croisant un certain nombre d’informations comme le pagerank interne, la position moyenne dans les SERP ou le taux de duplication des pages, vous êtes en mesure d’évaluer l’impact de vos différentes directives. Il s’agit d’une aide précieuse à la prise de décision.

Conclusion

La balise meta robots revêt donc une importance capitale dans la gestion de l’indexation de son site. Elle n’en demeure cependant pas magique et se montrera insuffisante dans un projet d’optimisation du budget crawl.