Pour comprendre ce qu’est un crawler, il convient de rappeler comment fonctionnent Google et les autres moteurs de recherche. Ces derniers envoient de petits robots (autrement dit, des petits programmes informatiques) sur tous les sites qui composent la toile. Les bots entrent et parcourent les sites via les liens qu’ils trouvent sur leur passage. Un lien est en quelques sortes une porte d’entrée pour les robots (bots). Un crawler, ou logiciel de crawl, est fondé sur le même principe, à la différence qu’il n’est pas commandé par Google, mais par nous, éditeurs de sites ou référenceurs. Il s’agit de robots simulant le même comportement que ceux des moteurs de recherche, que l’on programme pour visiter notre site ou celui de nos concurrents. Il est possible de crawler des sites entiers ou des pages spécifiques. L’objectif d’un crawler est de détecter les différentes anomalies structurelles d’un site mais aussi d’évaluer ses performances, ses liens entrants, etc. Croisées avec celles des logs, ces données constituent une mine d’informations pour tous les propriétaires de sites. Même si l’on parle souvent de crawler dans le cadre du référencement naturel, il existe d’autres types de crawlers, qui peuvent notamment servir aux équipes marketing.

Sommaire

 

crawler-site-web

Quels sont les différents types de robots crawler ?

Indexation pour les moteurs de recherche sur le web. 

Comme nous l’avons évoqué ci-dessus, les moteurs de recherche utilisent chaque seconde leurs crawlers pour évaluer les sites web et construire les classements de leurs résultats de recherche. Le passage des crawlers est visible dans les logs. 

Crawler de diagnostic

Ces crawlers sont fournis avec des outils d’aide au référencement naturel. Ils peuvent être lancés soit en interne (sur votre propre site), soit sur des sites tiers. Il existe également des crawlers qui parcourent le web pour vous aider à faire un état des lieux sur la concurrence, votre profil de lien, etc. 

Veille tarifaire

L’une des stratégies commerciales les plus utilisées est la veille tarifaire. Se tenir au courant des pratiques tarifaires de ses concurrents est indispensable pour mettre en place sa propre politique de prix. Pour ce faire, il existe des outils utilisant des crawlers chargés cette fois de récupérer les données relatives aux prix des produits. Certaines grosses marketplaces ont même mis en place des crawlers de ce type au sein même de leur plateforme, pour permettre aux e-commerçants d’ajuster les prix de leurs produits en fonction de leurs concurrents présents sur la marketplace.

crawler-seo-veille-tarifaire

Pratiques de SEO black hat

Certains SEO Black Hat utilisent des crawlers pour automatiser des tâches visant à manipuler les algorithmes de Google. L’une des plus connues (mais sur le déclin) est sans nul doute l’automatisation des liens sur des commentaires de blog. En tant que référenceur, nous ne cautionnons pas ce genre de pratiques.

Comment plaire aux robots crawler tels que Googlebot ou Bing ?

Plaire aux crawlers de Google et des autres moteurs de recherche nécessite de soigner l’apparence de son site sur bien des niveaux. Performances, qualité du contenu, accessibilité, netlinking : chaque composant du SEO constitue un critère d’évaluation pour les robots. Vous devez donc vous assurer de proposer un contenu unique, correctement intégré dans un maillage interne cohérent qui évite aux bots de s’éparpiller au sein du site.

Le rôle du crawl dans la stratégie SEO

Réfléchir au maillage interne de son site est indispensable pour maîtriser le parcours des bots et optimiser le budget crawl. Mais sans un crawler approprié, il est difficile de visualiser les différents noeuds de son maillage et d’apporter ainsi les optimisations nécessaires. La structure d’un site est souvent bien plus complexe qu’il n’y paraît, notamment sur les sites e-commerce qui proposent généralement une navigation à facettes qui complexifie énormément la tâche. De plus, un crawler externe est également indispensable pour connaître précisément les sites qui font pointer des liens (backlinks) vers le nôtre. Cette donnée possède un double intérêt : améliorer son profil de liens et se prémunir des actions black hat.

crawler-seo-strategie

Faut-il prendre un crawler gratuit ou payant ?

Il n’existe pas de réponse universelle à cette question. Elle dépend simplement de la typologie du site, du niveau de connaissances du propriétaire du site en termes de SEO et de ses ressources financières. 

Les crawlers gratuits

  • Xenu est un crawler dont le principal objectif était de détecter les liens brisés sur un site. Mais il indique aujourd’hui d’autres données intéressantes comme la longueur des titres, la profondeur des pages, le poids des images etc. C’est un outil intéressant pour commencer à se familiariser avec les bases du SEO.
  • LinkExaminer est comme son nom l’indique un vérificateur de liens qui parcourt chaque page et analyse son code HTML afin d’extraire les liens existants. Il peut également effectuer des tâches comme l’extraction du titre de la page ou l’identification des pages dupliquées.
  • Free SEO Toolkit de Microsoft est une fonctionnalité intégrée à Windows, mais qui n’est pas ajoutée par défaut. Elle vous permet d’analyser les sites web pour trouver du contenu pertinent pour les moteurs de recherche. Elle peut également vérifier les liens avec ou sans les balises ‘noindex’ et ‘nofollow’, les titres de pages, les balises meta, les images etc. C’est un petit plus intéressant pour les débutants, mais qui montre vite ses limites lorsqu’on cherche à faire de grosses optimisations techniques.

Les crawlers payants

  • Screaming Frog: gratuit jusqu’à 500 urls, Screaming Frog est un bon outil qui permet de parcourir les URLs des sites web et de récupérer les éléments clés pour analyser et auditer n’importe quel site web. Les données sont toutefois assez brutes et nécessitent d’être transposées sur un tableau Excel pour pouvoir être exploitées.
  • Botify et Oncrawl : ces deux crawler intègrent un système de crawl mais aussi d’analyse de logs. Les données sont représentées sous forme de graphiques, de camemberts ou de courbes, ce qui facilite leur interprétation. Botify est sans conteste l’outil le plus abouti, mais il est assez onéreux et nécessite des compétences assez avancées. Oncrawl est plus abordable, aussi bien techniquement que financièrement.
  • Deep crawl est un crawler qui intègre un cloud que vous contrôlez. Il permet de crawler son propre site, mais aussi ses backlinks. Il donne également un aperçu sur la structure et plans des sites. DeepCrawl a développé sa propre métrique : le Deeprank, chargé de mesurer le poids des liens internes comme le ferait Google.
  • SEMRush : il s’agit d’un outil assez complet et très réputé pour la recherche de mots clés, le suivi de positionnement de ses concurrents etc. Il est également capable de détecter des opportunités de backlinks et peut même aujourd’hui exécuter un audit SEO d’un site (mais il ne sera jamais aussi abouti que ceux des crawlers spécialisés dans l’analyse structurelle).

 

Conclusion

 Les crawlers sont donc omniprésents sur le web et sont devenus des alliés indispensables pour tout propriétaire de site souhaitant optimiser son site et surveiller la concurrence. Si certains outils gratuits sont plutôt intéressants pour débuter, il est généralement nécessaire d’investir dans des crawlers plus performants qui offriront des fonctionnalités bien plus poussées. C’est un investissement qui deviendra très vite rentable car vous prendrez une longueur d’avance sur vos concurrents.

   Article rédigé par Louis Chevant

Complétez votre lecture

Le guide de l’audit technique SEO

Méthode pas à pas pour réaliser un audit technique de votre site.