Qu’est-ce que l’analyse de logs et comment en tirer avantage ?

LouisChevant

il y a 6 ans

L’analyse de logs est une technique systématiquement utilisée par les professionnels du référencement naturel. Elle donne une vision globale des performances du site, de son maillage interne et de son incidence sur le comportement des robots. En effet, les fichiers de logs sont les seules données exactes à 100%. In fine, l’analyse de logs constitue une aide indispensable pour obtenir un meilleur classement dans les moteurs de recherche, tout en augmentant son trafic, ses conversions et ses ventes.

Sommaire

Qu’est ce qu’un fichier de logs serveur ?

Les fichiers de logs sont des données enregistrées par le serveur qui supporte votre site web. Ces données peuvent provenir des internautes, comme des robots.

Qu’est-ce que des logs ?

Lorsqu’un utilisateur tape une URL dans un navigateur, le navigateur traduit d’abord l’URL en 3 composants :

- - - Protocole
    - Nom du serveur
    - Nom de fichier

Le nom de serveur est converti en adresse IP via le serveur du NDD (Nom De Domaine) pour établir une connexion entre le navigateur et le serveur web correspondant, où se trouve le fichier demandé. Une requête HTTP Get est ensuite envoyée au serveur web via le protocole associé pour la page (ou le fichier) désiré, qui est ensuite interprété pour formater la page qui s’affiche sur votre écran. Chacune de ces requêtes est alors enregistrée comme un “hit” par le serveur web. Ces “hits” sont visibles dans vos logs mais aussi dans votre Google Search Console.

La structure du fichier de logs dépend du type de serveur et des configurations appliquées, mais il y a certains attributs qui sont presque toujours inclus :

- - - Serveur IP
    - Horodatage (date et heure)
    - Méthode (GET / POST)
    - Requête URI (aka : tige URI + requête URI)
    - Code d’état HTTP
    - User-agent

Voici ce que cela donne :

Quelles informations pouvez-vous en extraire ?

Elles contiennent des informations telles que l’IP de l’internaute qui accède à l’information, un horodatage, un user-agent, le code de réponse HTTP, les images, les CSS et tout autre fichier nécessaire pour afficher la page. Les fichiers de logs sont donc composés de milliers de lignes chaque jour. La plupart des solutions d’hébergement conservent automatiquement les fichiers de logs pendant un certain temps. Habituellement, ces informations ne sont mises à la disposition que du webmaster ou du propriétaire du domaine.

Les pages vues ou non crawlées par Google

L’analyse de logs met en lumière les pages qui intéressent le plus les robots et celles qui sont délaissées. Ces informations sont essentielles dans toute stratégie de référencement naturel. En effet, chaque site web comprend des pages très stratégiques et des pages secondaires. Les logs permettent de voir si toutes vos pages stratégiques sont crawlées par Google. Si le taux et/ou la fréquence de crawl sont inférieurs à la moyenne du site, cela signifie qu’un travail de fond est nécessaire pour pousser Google à consulter davantage ces pages. Il n’existe pas de solutions types que nous pourrions vous conseiller, tant les problématiques varient d’un site à un autre. Mais nous vous donnerons quelques pistes d’optimisation dans la seconde partie de cet article.

La fréquence d’exploration de votre site

La fréquence d’exploration de vos pages indique si les robots viennent les explorer régulièrement ou non. Il ne faut pas la confondre avec le taux de crawl qui lui renvoie uniquement au nombre de crawls alloués à une page ou groupe de pages, même si ces deux métriques sont souvent liées. En effet, une page ne présentant aucun intérêt sera peu crawlée et de moins en moins souvent. La fréquence de crawl est donc une donnée supplémentaire pour mesurer la pertinence d’une ou plusieurs pages. Si les robots viennent voir plus souvent les pages qui ont été optimisées, vous pourrez en conclure que votre travail porte ses fruits !

Le volume crawl du robot

L’analyse de logs permet également de connaître précisément le volume de crawl quotidien sur les URLs déjà connues et les URLs nouvellement crawlées. Il est important de surveiller chaque jour ses volumes de crawls à l’aide d’un outil de monitoring. Cela se présente simplement comme une courbe représentant le nombre de crawls chaque jour. Une chute importante du volume de crawl peut être due à un ralentissement du serveur, à des erreurs 500 ou à un problème lors de la récupération des logs par le serveur. A l’inverse, une forte augmentation n’est pas nécessairement positive. Par exemple, si vous venez d’ajouter beaucoup de produits et que le nombre de crawls explose, il convient de regarder quelles pages ont été crawlées pour s’assurer qu’il n’y a pas de problème de contenu dupliqué. Un pic de crawl peut aussi précéder un update de Google ou être ponctuel et sans aucune raison particulière.

Remontée de codes erreurs

Les données récupérées dans les logs contiennent également tous les codes de réponse sur chaque évènement. Si un internaute arrive sur votre site et se retrouve face à un code 500 (erreur serveur), une ligne de log sera créée. Il en va de même pour les pages en 404 (pages introuvables), 200 (pages accessibles), etc. Analyser les codes de réponse HTTP présente un double intérêt : SEO et UX (expérience utilisateur). Si vos internautes se prennent régulièrement des portes par votre site, il y a fort à parier qu’ils ne reviendront plus, tout comme les robots de Google, qui finiront par vous pénaliser.

Vous êtes peut-être en train de vous demander pourquoi analyser les codes HTTP dans vos logs alors qu’ils sont déjà disponibles dans les résultats de votre crawler ? L’explication est très simple : les données sur le crawler sont calculées sur l’instant T. Si vous effectuez votre crawl lorsque votre serveur est peu sollicité (et donc plus performant), vous pourriez ne constater aucun problème de code réponse et ce même si, en réalité, la majorité du temps votre site affiche beaucoup d’erreurs de serveur. L’analyse des codes HTTP dans les logs permet donc d’avoir une idée plus générale et lissée dans le temps.

Redirection 302 temporaires

Les redirections 302 apparaissent également dans les logs. Contrairement aux 301 qui sont permanentes et que l’on peut plus facilement “laisser courir”, il convient de surveiller les 302. D’une façon générale, il est préférable de les éviter tout court, mais si vous n’avez pas le choix, vous devrez réellement les utiliser à des fins occasionnelles et temporaires, auquel cas, vos pages perdront en visibilité au fil du temps. En analysant vos logs, vous pourrez donc observer si les bots continuent de crawler des 302 et prendre les mesures nécessaires pour les diriger vers les bonnes URLs, soit en coupant les 302, soit en faisant une 301.

Qu’est-ce que le budget crawl et comment l’optimiser ?

Les robots de Google n’explorent pas toutes les pages d’un site web (sauf si celui-ci est un petit site vitrine). Nous ne savons pas exactement comment les moteurs de recherche définissent le budget crawl, mais selon Google, le moteur de recherche tient compte de deux facteurs : la popularité des pages et la fraîcheur du contenu. Cela signifie que si le contenu d’une page est souvent mis à jour, Googlebot tentera de la parcourir plus fréquemment.

On peut ainsi observer des taux de crawl extrêmement faibles (de l’ordre de 2 ou 3% voire moins) sur les sites présentant de grosses lacunes SEO (mauvais maillage interne, contenu dupliqué, profil de liens faible, contenu pauvre, pages lentes etc.). L’un des objectifs de l’analyse de logs est donc d’optimiser ce budget crawl.

Détecter les problèmes techniques

Les erreurs 5xx et 4xx sont la bête noire des référenceurs car elles émettent un signal très négatif à Google. De plus, elles perturbent indirectement le maillage interne du site car lorsqu’un robot ne peut pas accéder à une page, il ne peut pas non plus accéder aux liens internes qu’elle contient. Selon l’importance de la page, cela peut impacter le crawl des pages qui sont étroitement liées. Il est donc essentiel de corriger ces problèmes techniques surtout s’ils sont récurrents.

Pages orphelines

Les pages dites orphelines sont des pages qui existent mais qui ne sont pas liées au site. Ces pages sont facilement détectables en mélangeant les données d’un crawler et des logs. Elles n’apparaîtront pas dans les données du crawler, mais peuvent apparaître dans les logs. Vous vous demandez alors comment Google peut explorer des pages qui ne sont pas liées au site ? Plusieurs raisons à cela : soit ces pages ont été un jour liées au site et ont perdu leurs liens (par exemple un produit en rupture de stock qui n’apparaît plus dans le listing des catégories), soit elles reçoivent des liens entrants externes (backlinks). Dans les deux cas, même si elles ne reçoivent plus aucun lien, Google peut continuer à les crawler car il les connaît. Il est d’ailleurs difficile de faire en sorte que les robots n’explorent plus naturellement ces pages. Vous pouvez les retirer du sitemap, supprimer les liens externes et constater que Google les crawle encore inlassablement ! Pour cela, il n’existe qu’une seule solution : les bloquer dans le robots.txt. Mais c’est une solution qui n’est pas viable sur le long terme car 1/ le nombre de lignes est limité ; 2/ c’est une gestion manuelle qui peut s’avérer bien trop chronophage si le site est important.

URLs dupliquées

Les URLs dupliquées sont l’une des premières causes de pénalité par les robots et notamment Panda. Souvent involontaires, elles peuvent pourtant avoir de graves conséquences sur le référencement naturel d’un site web. Lorsque vous rencontrez des groupes de pages similaires, vous pouvez opter pour la balises rel=canonical ou carrément la suppression de certaines pages. Dans tous les cas, vous devez en amont vérifier vos logs pour savoir quelle est la page de référence pour les robots. Si, sur une dizaine de pages dupliquées, vous constatez qu’une version est particulièrement crawlée, alors vous devrez la choisir en page de référence.

Diagnostiquer l’optimisation de vos pages

Les différents taux

Le taux de pages actives

Pour élaborer un plan d’optimisation et définir les priorités, vous devez vous baser sur différentes métriques. La première est bien sûr le taux de crawl d’une page ou d’un groupe de pages. Celui-ci vous indiquera l’intérêt que porte les robots à ces pages. Vient ensuite le taux de pages actives au sein de ce groupe de pages. Le taux de crawl est en effet insuffisant car une page crawlée n’est pas nécessairement une page active (= qui a reçu au moins 1 visite sur les 30 derniers jours). Il est donc intéressant de connaître les pages qui sont crawlées mais non actives et d’en trouver les causes.

La récence des pages

Vous pouvez ensuite classer vos pages crawlées et actives en fonction de leur récence. Vous constaterez peut-être que Google s’intéresse davantage à vos contenus “frais” ou à l’inverse à vos contenus anciens. Dans tous les cas, cela vous donnera une idée du plan d’action à mettre en place pour mettre en avant vos pages les plus stratégiques.

Le ratio nombre de crawl / visites

En SEO, il faut faire des choix pour optimiser le budget crawl. Parfois, il peut arriver qu’il faille “couper le pied pour ne pas couper la jambe”. Certaines pages peu stratégiques peuvent en effet consommer beaucoup de crawl, pour un nombre de visites trop faible. Ainsi, en analysant ce ratio “nombre de crawl / visites”, vous serez capable de mettre en lumière les pages qui consomment trop de budget par rapport à ce qu’elles rapportent. Vous pouvez choisir d’obfusquer les liens qui mènent vers ces pages pour que les robots ne les voient plus, ou tout simplement les supprimer du site si elles ne présentent aucun intérêt pour l’utilisateur. Vous “détournerez” ainsi les robots de Google vers d’autres pages plus intéressantes pour vous.

Le taux de crawl par type de pages

Dans des outils de crawl et analyse de logs comme Oncrawl ou Botify, vous pouvez segmenter vos pages selon vos besoins en termes d’analyse. Il s’agit d’une opération cruciale qui conditionnera toutes vos décisions. Vous observerez ainsi le comportement des robots sur chaque type de pages et constaterez l’évolution de vos actions ciblées.

Identifier les besoins en adaptabilité mobile

Grâce aux données relatives au user-agent, les logs vous permettront de savoir si votre site est passé au Mobile First Index (MFI). Si tel est le cas, vous le constaterez très vite : tous les crawls ou presque seront effectués par le bot mobile. Il s’agit d’une information importante qui vous aidera à déterminer vos actions prioritaires. Par exemple, si votre site est passé en MFI, l’amélioration des temps de chargement devra alors faire partie de vos priorités.

Conclusion

Les logs constituent donc une mine d’informations pour chaque éditeur de site Internet. En croisant leurs données avec celles d’un crawler, vous connaîtrez avec précision l’état de santé de votre site et le comportement des robots des moteurs de recherche. Il s’agit d’une étape incontournable avant de se lancer dans une stratégie de référencement naturel. Elle paraît complexe au premier abord, mais peut être appréhendée de façon empirique et se révéler tout simplement passionnante !

Article rédigé par Louis Chevant

Complétez votre lecture

Le guide complet du Maillage interne

La méthode pas à pas pour construire vos cocons sémantiques, votre maillage et l’arborescence optimale de votre site web.

Télécharger gratuitement