Googlebot : analyser les logs du robot d’indexation de Google !

Tous les sites web du monde entier sont crawlés par le Googlebot, chargé de les analyser pour pouvoir ensuite établir un classement pertinent dans les résultats de recherche. Nous allons voir dans ce billet les différentes actions du Googlebot, ses attentes et les moyens mis à votre disposition pour optimiser l’exploration de votre site.

Sommaire

Qu’est-ce que Googlebot ?
Comment fonctionne Googlebot et que recherche-t-il ?
Comment analyser les visites de Googlebot sur mon site ?
Le robots.txt
Comment optimiser mon site pour plaire à Googlebot ?

Qu’est-ce que Googlebot ?

Googlebot est un robot virtuel, développé par les ingénieurs du géant de Mountain View. Ce petit “Wall-E du web” parcourt à toute allure les sites web avant d’en indexer certaines de leurs pages. Ce programme informatique recherche et lit le contenu des sites et modifie son index en fonction des nouveautés qu’il trouve. L’index, dans lequel figurent les résultats de recherche, est en quelque sorte le cerveau de Google. C’est ici que réside tout son savoir.

googlebot

Google utilise des milliers de petits ordinateurs pour envoyer ses crawlers dans tous les recoins du web pour trouver ces pages et voir ce qu’il y a dessus. Il existe plusieurs robots différents, qui ont chacun un objectif bien défini. Par exemple, les bots AdSense et AdsBot sont chargés de vérifier la pertinence des annonces payantes, tandis que Mobile Apps Android vérifie les applications Android. Il existe aussi un Googlebot Images, News… Voici une liste des plus connus et des plus importants avec leur nom “User-agent”“:

Googlebot (bureau) Mozilla/5.0 (compatible ; Googlebot/2.1 ; +http://www.google.com/bot.html)
Googlebot (mobile) Mozilla/5.0 (Linux ; Android 6.0.1 ; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, comme Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible ; Googlebot/2.1 ; +http://www.google.com/bot.html)
Googlebot Video Googlebot-Video/1.0
Googlebot Images Googlebot-Image/1.0
Googlebot News Googlebot-News

Google fournit la liste complète des Googlebots ici.

Comment fonctionne Googlebot et que recherche-t-il ?

Googlebot est totalement autonome, personne ne le “pilote” vraiment une fois qu’il est lancé. Le robot utilise les sitemaps et les liens découverts lors de recherches précédentes. Chaque fois que le crawler trouve de nouveaux liens sur un site, il va les suivre pour visiter les pages de destination et les ajouter à son index si elles ont un intérêt. De la même façon, si Googlebot rencontre des liens cassés ou des liens modifiés, il en tiendra compte et rafraîchira son index. Googlebot détermine lui même la fréquence à laquelle il parcourra les pages. Il alloue un “budget crawl” à chaque site. Il est donc normal qu’un site de plusieurs centaines de milliers de pages ne soit pas totalement crawlé ni indexé. Pour faciliter la tâche au Googlebot et vous assurer que votre site sera correctement indexé, il faut vérifier qu’aucun facteur ne bloque le crawl ou ne le ralentisse (mauvaise commande dans le robots.txt par exemple).

Les commandes du robots.txt

Le robots.txt est en quelque sorte la roadmap de Googlebot. C’est la première chose qu’il vient crawler pour pouvoir suivre ses directives. Dans le fichier robots.txt, il est possible de restreindre l’accès à Googlebot à certaines parties de son site. Ce système est souvent utilisé dans des stratégies d’optimisation du budget crawl. Le robots.txt de chaque site web est accessible en ajoutant /robots.txt à la fin de l’url. Il se présente comme suit :

On voit que ce site interdit l’exploration des pages panier, mon compte et autres pages de paramétrage.

Les fichiers CSS

CSS signifie Cascading Style Sheets (feuilles de style en cascade). Ce fichier décrit la façon dont les éléments HTML doivent être affichés à l’écran. Il permet de gagner énormément de temps car les feuilles de style s’appliquent sur tout le site. Il peut même contrôler la mise en page de plusieurs sites en même temps. Googlebot ne se contente pas du texte et télécharge aussi les fichiers CSS pour mieux comprendre le contenu global d’une page.

Grâce au CSS il peut également :

Détecter d’éventuelles tentatives de manipulation de la part des sites pour tromper les robots et mieux se positionner (les plus célèbres : le cloaking et l’écriture blanche sur fond blanc).
Télécharger certaines images (logo, pictogrammes….)
Lire les directives relatives au responsive design, qui sont indispensables pour montrer que votre site s’adapte à la navigation mobile

Les images

Googlebot télécharge les images présentes sur votre site pour enrichir son outil “Google Images”. Bien sûr, le robot ne “voit” pas encore l’image, mais il arrive à la la comprendre grâce à l’attribut alt et au contexte global de la page. Il ne faut donc pas négliger ses images car elles peuvent devenir une importante source de trafic, même s’il est aujourd’hui très compliqué de l’analyser avec Google Analytics.

Comment analyser les visites de Googlebot sur mon site ?

Le robot de Google est plutôt discret, on ne le voit pas vraiment au premier abord. Pour les débutants, c’est même une notion totalement abstraite. Pourtant, il est bien là, et il laisse certaines traces sur son passage. Ces “traces” sont visibles dans les logs du site. L’analyse des logs est l’une des méthodes pour comprendre la façon dont Googlebot visite votre site. Le fichier de logs permet également d’observer la date et heure précise de la visite du bot, le fichier cible ou la page demandée, l’en-tête de réponse serveur etc.

Vous avez pour cela plusieurs outils à votre disposition.

La Google Search Console

La Search Console anciennement appelée Webmaster Tools, est l’un des outils gratuits les plus importants pour vérifier la bonne navigabilité de votre site. A travers ses courbes d’indexation et de crawls, vous pourrez vous rendre compte du ratio de pages crawlées et indexées par rapport au nombre total de pages dont est composé votre site. Vous y obtiendrez également une liste des erreurs de crawl (erreurs 404 ou 500 par exemple) que vous pourrez corriger pour aider Googlebot à mieux parcourir votre site.

Les outils payants d’analyse de logs

Pour savoir à quelle fréquence Googlebot visite votre site et ce qu’il y fait, vous pouvez également opter pour des outils payants mais beaucoup plus aboutis que la Search Console. Parmi les plus connus : Oncrawl, Botify, Kibana, Screaming Frog… Ces outils sont plutôt destinés aux sites composés de nombreuses pages qu’il est nécessaire de segmenter pour faciliter l’analyse. En effet, contrairement à la Search Console qui vous donne un taux de crawl global, certains de ces outils offrent la possibilité d’affiner vos analyses en déterminant un taux de crawl pour chaque type de pages (pages de catégorie, fiche produit …). Cette segmentation est indispensable pour faire ressortir les pages problématiques et envisager ensuite les corrections nécessaires.

Le robots.txt

Google ne partage pas ses listes d’adresses IP utilisées par les différents robots car elles changent souvent. Ainsi, pour savoir si un (vrai) Googlebot visite votre site, vous pouvez faire une recherche IP inverse. Les spammeurs peuvent en effet facilement usurper un nom de user-agent, mais pas une adresse IP. Le fichier robots.txt peut vous aider à déterminer comment Googlebot visite certaines parties votre site. Attention cette méthode n’est pas idéale pour les débutants car si vous vous trompez dans les commandes, vous pourriez empêcher Googlebot de crawler votre site entier, ce qui aura comme conséquence directe le retrait de votre site des résultats recherche.

Comment optimiser mon site pour plaire à Googlebot ?

Aider Googlebot à parcourir plus de pages de votre site est un processus pouvant s’avérer complexe, qui se résume à faire tomber les barrières techniques qui empêchent le robot d’explorer votre site de façon optimale. Il s’agit de l’un des piliers du référencement naturel : l’optimisation on-site.

Mettez à jour le contenu de votre site régulièrement

Le contenu est de loin le critère le plus important pour Google mais aussi pour les autres moteurs de recherche. Les sites qui mettent régulièrement à jour leur contenu sont susceptibles d’être explorés plus fréquemment car Google est constamment à la recherche de nouveautés. Si vous possédez un site vitrine sur lequel il est difficile d’ajouter régulièrement du contenu, vous pouvez utiliser un blog, directement rattaché à votre site. Celui-ci incitera le bot à venir plus souvent tout en enrichissant la sémantique de votre site. En moyenne, il est recommandé de fournir du contenu frais au moins trois fois par semaine afin d’améliorer de façon conséquente votre taux d’exploration.

Améliorez le temps de réponse du serveur et le temps de chargement des pages

Le temps de chargement des pages est un facteur déterminant. En effet, si Googlebot met trop de temps à charger et explorer une page, il crawlera moins de pages derrière. Vous devez donc héberger votre site sur un serveur fiable offrant de belles performances.

Créez des Sitemaps

Soumettre un plan de site est l’une des premières choses que vous pouvez faire pour que les robots explorent plus facilement et plus rapidement votre site. Ces derniers n’exploreront peut-être pas toutes les pages du sitemap, mais ils auront les chemins déjà tout cuits, ce qui est particulièrement important pour les pages qui ont tendance à être mal liées dans le site.

Évitez le contenu dupliqué

Le contenu dupliqué diminue grandement le taux d’exploration car Google considère que vous utilisez ses ressources pour crawler la même chose. En d’autres termes, vous fatiguez ses robots pour rien ! Le contenu dupliqué doit donc être évité au maximum pour Googlebot mais aussi pour ce cher ami Google Panda.

Bloquez l’accès aux pages indésirables via Robots.txt

Pour préserver son budget crawl, il est inutile de laisser les robots des moteurs de recherche parcourir des pages peu pertinentes, comme les pages d’informations, les pages d’administration de compte etc. Une simple modification sur le fichier robots.txt vous permettra de bloquer l’exploration de ces pages par Googlebot.

Utilisez les services Ping

Le ping est un très bon moyen d’inciter les robots à venir vous visiter en les informant de nouvelles mises à jour. Il existe de nombreux services de ping manuels comme Pingomatic sur WordPress. Vous pouvez ajouter manuellement d’autres services de ping à de nombreux robots de moteurs de recherche.

Soignez votre maillage interne

Le maillage interne est capital pour optimiser son budget crawl. Il vous permet non seulement de transmettre du jus SEO à chaque page, mais aussi de mieux guider les bots vers les pages les plus profondes. Concrètement, si vous tenez un blog, lorsque vous ajoutez un article, vous devez, dans la mesure du possible, faire un lien vers une page plus ancienne. Cette dernière sera toujours alimentée et continuera à démontrer tout son intérêt à Googlebot. Le maillage interne n’aide pas directement à augmenter le taux d’exploration de Google, mais il aide les robots à explorer efficacement les pages profondes de votre site qui sont souvent oubliées.

Optimisez vos images

Aussi intelligents soient-ils, les robots ne sont pas encore capables de visualiser une image. Ils ont besoin d’indications textuelles. Si votre site utilise des images, assurez-vous de bien compléter les attributs alt pour fournir une description claire que les moteurs de recherche comprendront et indexeront. Les images ne peuvent apparaître dans les résultats de recherche que si elles sont correctement optimisées.

Conclusion

Googlebot est donc un petit robot qui visite quotidiennement votre site, à la recherche de nouveautés. Si vous avez fait des choix techniques judicieux pour votre site, il viendra fréquemment et crawlera de nombreuses pages. Si vous lui fournissez en plus régulièrement du contenu frais, il reviendra encore plus souvent. D’ailleurs, à chaque fois que vous apportez une modification sur votre site, vous pouvez inviter Googlebot à venir voir ce changement depuis la Google Search Console. En principe, cela permet une indexation plus rapide.