Sommaire

Qu’est-ce que robots.txt ?

Le protocole d’exclusion des robots, plus connu sous le nom de robots.txt, est une convention visant à empêcher les robots d’exploration (web crawlers) d’accéder à tout ou une partie d’un site web. C’est un fichier texte utilisé pour le référencement naturel des sites web, contenant des commandes à destination des robots d’indexation des moteurs de recherche afin de leur préciser les pages qui peuvent ou ne peuvent pas être indexées.

Le robots.txt ne sert donc pas à désindexer des pages, mais à éviter qu’elles soient parcourues :
==> si la page n’avait jamais été indexée avant, empêcher son crawl permettra de ne jamais l’indexer, en revanche si la page est déjà indexée ou si un autre site du web lui fait un lien, le robots.txt ne permettra pas de la désindexer. Pour empêcher qu’une page ne figure sur Google, il faut utiliser des balises/ directives noindex, ou encore la protéger par un mot de passe.

L’objectif principal du fichier robots.txt est donc de manager le temps de crawl du robot en lui interdisant de parcourir des pages à faible valeur ajoutée, mais qui doivent exister pour le parcours utilisateur (panier d’achat, etc).

PS : le fichier robots.txt est l’un des premiers fichiers analysés par les moteurs.

Exemple

Robots.txt-exemple
robot.txt

Comment ça marche ?

Les moteurs de recherche ont deux tâches principales : explorer le Web pour découvrir du contenu et indexer ce contenu pour qu’il puisse être diffusé aux chercheurs qui recherchent des informations.

Explication :

Pour explorer les sites, les moteurs de recherche suivent les liens pour se rendre d’un site à un autre, ils explorent plusieurs milliards de liens et de sites Web. On appelle cela « spidering ». Une fois que le robot de recherche accède à un site web, il recherche un fichier robots.txt. S’il en trouve un, le robot lira d’abord ce fichier avant de continuer à parcourir la page. Si le fichier robots.txt ne contient pas des directives interdisant l’activité d’un agent utilisateur ou si le site ne dispose pas de fichier robots.txt, il explorera d’autres informations sur le site.

Pourquoi a-t-on besoin d’un robots.txt ?

Importance du robots.txt

Les fichiers Robots.txt contrôlent l’accès du robot à certaines zones de votre site. Bien que cela puisse être très dangereux si vous interdisez accidentellement à Googlebot d’explorer tout votre site, il existe certaines situations dans lesquelles un fichier robots.txt peut être très utile.

Les cas d’utilisation courants incluent :

  • Éviter l’exploration de contenu dupliqué.
  • Éviter l’exploration d’un moteur de recherche interne.
  • Empêcher les moteurs de recherche d’indexer certaines images de votre site.
  • Spécifier l’emplacement du plan de site.
  • Spécification d’un délai d’analyse afin d’éviter que vos serveurs ne soient surchargés lorsque les robots d’exploration chargent simultanément plusieurs éléments de contenu.

Si votre site ne contient aucune zone sur laquelle vous souhaitez contrôler l’accès des utilisateurs, il se peut que vous n’ayez pas besoin d’un fichier robots.txt.

Syntaxe Robots.txt

Langage des fichiers robots.txt

Le fichier robots.txt est constitué d’un ensemble de blocs d’instructions et optionnellement de directives sitemaps.

Chaque bloc contient deux parties :

  • Une ou plusieurs directives User-agent : A quels robots ce bloc s’adresse.
  • Une ou plusieurs commandes : Quelles contraintes doivent être respectées.
    La commande la plus courante est Disallow, qui permet d’interdire aux robots le crawl d’une portion du site.

Qu’est-ce qu’un user agent ?

Lorsqu’un programme initie une connection à un serveur web (que ce soit un robot ou un navigateur web standard), il donne des informations de base sur son identité via une en-tête http appelée “user-agent”.

Pour Google, la liste des user-agents utilisés par les crawlers Google est disponible ici.

Exemple :

# Les lignes commençant par # sont des commentaires

# Début du bloc 1

User-agent: Googlebot

User-agent: Googlebot-News

Disallow: /directory1/

Disallow: /directory2/

# Début du bloc 2

User-agent: *

Disallow: /directory3/

# Directive sitemap additionnelle

Sitemap: http://www.example.com/sitemap.xml

Autres commandes de bloc :

  • Allow (Applicable uniquement à Googlebot) : Commande permettant d’indiquer à Googlebot qu’il peut accéder à une page ou à un sous-dossier, même si sa page parent ou son sous-dossier peut être refusé (cette commande a précédence sur les commande Disallow).
  • Crawl-delay : Ce paramètre permet de spécifier et de régler le nombre de secondes que doit attendre le robot entre chaque requêtes successives.

Directives additionnelles :

  • Sitemap : permet d’indiquer facilement aux moteurs de recherche les pages de leurs sites à explorer. Un plan Sitemap est un fichier XML qui répertorie les URL d’un site ainsi que des métadonnées complémentaires sur chaque URL de façon à favoriser une exploration plus intelligente du site par les moteurs de recherche.
    Plusieurs directives sitemap peuvent être données (pour indexer plusieurs fichiers sitemaps).

Langage des fichiers robots.txt : Expressions régulières

Les Regex sont des caractères spéciaux qui vous permettent de simplifier l’écriture du robots.txt via l’utilisation de patterns.

Dans le cadre du fichier robots.txt, la plupart des moteurs de recherche (Google, Bing, Yandex …) n’en comprennent que deux :

  • * : Correspond à n’importe quelle séquence de caractères
  • $ : Correspond à la fin d’une URL

Note : si l’utilisation des regex entraine pour un robot donné un matching avec plusieurs blocs, seul le bloc le plus spécifique sera pris en compte.

Par exemple GoogleBot choisira ici le bloc 2 :

User-agent: * #Début du bloc 1

User-agent: Googlebot #Début du bloc 2

Exemples :

  • User-agent: *
    Le user-agent peut prendre n’importe quelle valeur, autrement dit le bloc est applicable à tous les robots.

  • Disallow: /*.gif$
    Cette commande empêche le crawl d’urls contenant une série de caractères quelconques (*) suivie de “.gif” à la fin de l’url (“.gif$”), autrement dit des images gifs.
    Note : dans le robots.txt, les urls commencent toutes par un slash car on les décrit depuis la racine du site, représentée par “/”.

  • Disallow: /private
    Empêche le crawl de toutes les urls qui commencent par /private (dont /privateblabla1.html), identique à /private*

  • Disallow: /private/
    Empêche le crawl de toutes les urls qui commencent par /private/ (dont /private/page1.html), identique à /private/*

  • Disallow: /private/$
    Empêche le crawl de /private/ exactement (par exemple /private/page1.html est toujours accessible).

  • Allow: /wp-admin/admin-ajax.php = L’instruction Allowpermet de faire des exceptions, ici elle permet aux robots d’explorer admin-ajax.php qui fait partie du répertoire que j’ai précédemment interdit, /wp-admin/.

  • Sitemap: « lien du sitemap » permet également d’indiquer aux moteurs de recherche l’adresse du fichier sitemap.xml du site, s’il y en a un.

Où mettre le robots.txt ?

Vous ne savez pas si vous avez un fichier robots.txt ?

  1. Tapez simplement votre domaine racine,
  2. puis ajoutez /robots.txt à la fin de l’URL. Par exemple, le fichier robots de “Panorabanques” se trouve sur “https://www.panorabanques.com”.

Si aucune page .txt n’apparaît, vous n’avez actuellement pas de page robots.txt (en direct).

Si vous n’avez pas de robots.txt :

  • en avez-vous besoin ? vérifiez que vous n’avez pas de pages à faible valeur ajoutée qui le requièrent. Exemple : panier d’achat, pages de search de votre moteur de recherche interne, etc
  • si vous en avez besoin, créez le fichier en respectant les directives plus haut

Comment créer un robots.txt pour un site

Un fichier robots.txt est constitué d’une ou plusieurs règles. Suivez règles de base relatives aux fichiers robots.txt c’est à dire les règles de format, syntaxe et d’emplacement énoncer dans les précédents slides pour créer le robots.txt.

Concernant le format et l’emplacement vous pouvez utiliser presque tous les éditeurs de texte pour créer un fichier robots.txt. L’éditeur de texte doit être capable de créer des fichiers texte ASCII ou UTF-8 standards. N’utilisez pas de traitement de texte, car ces logiciels enregistrent souvent les fichiers dans un format propriétaire et peuvent ajouter des caractères inattendus (des guillemets courbes, par exemple), ce qui peut perturber les robots d’exploration.

Règles de format et d’utilisation

  • Le nom du fichier robots.txt doit être en minuscule (pas de Robots.txt ou ROBOTS.TXT).
  • Votre site ne peut contenir qu’un seul fichier robots.txt.
  • Absent, une erreur 404 s’affichera et les robots considèrent qu’aucun contenu n’est interdit.

Bonnes pratiques

  • Assurez-vous de ne pas bloquer le contenu ou les sections de votre site Web que vous souhaitez explorer.
  • Les liens sur les pages bloquées par robots.txt ne seront pas suivis.
  • N’utilisez pas le fichier robots.txt pour empêcher l’affichage de données sensibles dans les résultats SERP. Étant donné que d’autres pages peuvent être liées directement à la page contenant des informations privées, elles peuvent toujours être indexées. Si vous souhaitez bloquer votre page à partir des résultats de recherche, utilisez une méthode différente, telle que la protection par mot de passe ou la méta-directive noindex.
  • Certains moteurs de recherche ont plusieurs utilisateurs. Par exemple, Google utilise Googlebot pour la recherche naturelle et Googlebot-Image pour la recherche d’images. La plupart des agents utilisateurs du même moteur de recherche suivent les mêmes règles. Il n’est donc pas nécessaire de spécifier des directives pour les différents robots d’un moteur de recherche, mais cela vous permet d’affiner la manière dont le contenu de votre site est analysé.
  • Un moteur de recherche mettra en cache le contenu de robots.txt, mais met généralement à jour le contenu mis en cache au moins une fois par jour. Si vous modifiez le fichier et souhaitez le mettre à jour plus rapidement, vous pouvez envoyer votre URL robots.txt à Google.

Robots.txt & Search Console : valider et tester

La fonction Envoyer de l’outil de test du fichier robots.txt vous permet de nous demander facilement d’explorer et d’indexer de manière plus rapide un nouveau fichier robots.txt pour votre site. Tenez-nous informés des modifications apportées à votre fichier robots.txt en suivant les étapes ci-dessous :

  1. Cliquez sur Envoyer dans le coin inférieur droit de l’éditeur de fichier robots.txt. Cette action permet d’ouvrir une boîte de dialogue « Envoyer ».
  2. Téléchargez votre code de fichier robots.txt modifié depuis la page Outil de test du fichier robots.txt en cliquant sur le bouton Télécharger de la boîte de dialogue Envoyer.
  3. Ajoutez votre nouveau fichier robots.txt à la racine de votre domaine en tant que fichier texte appelé fichier robots.txt. L’URL de votre fichier robots.txt doit être /robots.txt.
  4. Cliquez sur Valider la version en ligne pour vérifier que le fichier robots.txt en ligne est bien la version que vous souhaitez nous voir explorer.
  5. Cliquez sur Envoyer la version en ligne pour nous signaler que votre fichier robots.txt a été modifié et nous demander de l’explorer.
  6. Vérifiez que votre dernière version a été explorée avec succès en actualisant la page dans votre navigateur afin de mettre à jour l’éditeur de l’outil et de consulter votre code de fichier robots.txt en ligne. Une fois la page actualisée, vous pouvez également cliquer sur le menu déroulant au-dessus de l’éditeur de texte pour afficher l’horodatage qui indique à quel moment nous avons vu pour la première fois la dernière version de votre fichier robots.txt.

test-robots.txt

Conclusion :

Le robots.txt permet d’exclure l’accès aux robots  sur certaines parties de vos pages web, notamment si une zone de votre page est privé ou si le contenu n’est pas indispensable pour les moteurs de recherche. Ainsi, le robots.txt est un outil indispensable pour maîtriser l’indexation de ses pages.

   Article rédigé par Louis Chevant

Complétez votre lecture

Le guide complet du Maillage interne

La méthode pas à pas pour construire vos cocons sémantiques, votre maillage et l’arborescence optimale de votre site web.