Contenu dupliqué (Duplicate content) en SEO : Comprendre et corriger !

Nous vous donnons toutes les astuces pour corriger le contenu dupliqué. Vous serez ainsi débarrassé du contenu en double qui peut malheureusement affecter votre référencement.

Sommaire

Définition du contenu dupliqué
Comment le contenu dupliqué se produit-il au sein d’un site ?
Quelles sont les conséquences du duplicate content ?
Comment vérifier la présence de contenu dupliqué ?
Comment corriger ou supprimer le contenu dupliqué ?

Définition du contenu dupliqué

Le contenu dupliqué est par définition un contenu qui apparaît en double à l’intérieur même d’un site ou depuis 2 sites bien distincts (dans ce cas on parle aussi de plagiat). Autrement dit, on retrouve le même contenu (texte, images…) dans 2 pages qui ont pourtant 2 URLS bien différentes. Il s’agit d’une problématique récurrente notamment chez les e-commerçants qui tombent très vite dans ce piège à cause des multiples filtres dédiés à l’expérience utilisateur.

Contenu_dupliqué

Le contenu dupliqué, aussi appelé « duplicate content » ou « DC » peut faire l’objet d’une pénalité algorithmique par notre bien-aimé Panda. Contrairement à son camarade Pingouin, ce dernier ne pénalise pas le site entier mais seulement les pages dupliquées qui peuvent être déclassées ou carrément inexistantes dans les résultats de recherche. Pour une fois, on ne peut qu’approuver les méthodes du moteur de recherche. En effet, à quoi servirait une page de résultats remplie des mêmes contenus ?

Comment le contenu dupliqué se produit-il au sein d’un site ?

On pourrait légitimement penser qu’en ayant connaissance de cette règle, on se met à l’abri du duplicate content.

« Je ne copie-colle pas mes fiches de produits à partir d’un autre site ou d’une page de mon site, donc c’est bon ! »

Ah, si c’était si simple !

Aujourd’hui, avec la multiplication des méga-menus et des filtres à facettes, le contenu dupliqué constitue une véritable épée de Damoclès sans même que l’on s’en aperçoive. Selon certaines estimations, 29% du web serait ainsi dupliqué !

Voici les causes les plus fréquentes de contenu dupliqué :

Les paramètres d’URLs et les codes de tracking

Les paramètres d’URLS et de tracking sont une source fréquente de duplicate content. Cela peut être un problème causé non seulement par les paramètres eux-mêmes, mais aussi par l’ordre dans lequel ces paramètres apparaissent dans l’URL.

Par exemple :
https://exemple.com/produits/femmes/robes/vert.html peut être dupliquée avec
https://exemple.com/produits/femmes/?category=robes&color=vert

De plus, il est possible que la session même d’un internaute génère un contenu en double. Si l’ID de session est automatiquement créé et constitue un paramètre dans l’url, il peut alors générer un contenu dupliqué si cette URL est utilisée ailleurs et donc crawlée par Google.
Etant donné qu’il est très difficile d’anticiper les conséquences des paramètres d’URLS, il est préférable de les éviter autant que possible. De toute façon, les URLS avec paramètres sont généralement mal indexées ou mal positionnées dans Google.

La navigation à facettes

Les facettes, plus couramment appelés filtres sont la bête noire des référenceurs. Si elles sont plutôt simples à gérer sur de petits sites, elles peuvent devenir une véritable usine à gaz sur les très gros sites.

Prenons un premier cas concret :

– La page catégorie Pantalon Femme comporte 10 produits
– Sur ces 10 produits, 9 sont rouges

En cliquant sur le filtre « rouge », on se retrouve avec 9 produits. Les pages avec et sans filtre « rouge » se ressemblent donc énormément !

filtre-contenu-dupliqué

Deuxième cas concret, sur un site de pièces détachées pour 2 roues :

– 10 carburateurs de scooter de la marque X et de la dimension Y sont compatibles aussi avec les mobylettes et les moto 50cc
– Dans chaque catégorie Scooter / Mobylette / Moto 50cc, si vous sélectionnez les carburateurs de la marque X et de la dimension Y, vous vous retrouvez avec les mêmes produits … et donc un joli duplicate content !

Sur les sites n’utilisant pas la réécriture d’URL, ce contenu dupliqué peut même s’étendre aux fiches de produits qui se retrouvent dans plusieurs catégories, avec différentes URLS.

Le HTTP/HTTPS

Lors d’une migration du HTTP vers HTTPS, les cas de duplicate content peuvent considérablement augmenter si l’on ne prend pas le temps de procéder à certaines vérifications. Deux pages disponibles en version HTTP et HTTPS sont considérées comme strictement similaires par les moteurs de recherche et tout aussi pénalisables.

Le contenu simplement copié

Le problème récurrent que rencontrent tous les sites de e-commerce concerne l’alimentation du catalogue produit. Certains sites possèdent des dizaines de milliers de produits à rentrer, dont certains se distinguent uniquement par une couleur ou une taille. Rares sont les sites qui possèdent suffisamment de ressources humaines pour écrire 1 article unique par produit. Si Google affirme qu’il applique une certaine tolérance, en pratique on se rend compte que toutes les pages ne sont pas indexées ou positionnées.

Quelles sont les conséquences du duplicate content ?

Le duplicate content va impacter la façon d’indexer votre contenu par les moteurs de recherche.

– Ils vont devoir faire un choix entre les versions du contenu à référencer.

– De plus les moteurs de recherche vont employer du temps à crawler le même contenu plusieurs fois (selon le nombre de fois que votre contenu est dupliqué) et ils vont donc potentiellement moins bien référencer certains bons contenus.

Car encore une fois, les moteurs de recherche souhaitent offrir la meilleure expérience utilisateur, c’est pourquoi ils ne proposeront pas plusieurs versions d’un même contenu et choisiront à chaque fois la version du contenu qu’ils estiment être la meilleure.

Ce que vous risquez dans le cas où vous n’intervenez pas, est de voir vos positions dans les résultats de recherche chuter et donc perdre du trafic.

Il se peut également que Google retire certaines pages des résultats de recherche.

Enfin le dernier risque concerne votre popularité.

En effet si vous effectuez des actions d’acquisitions de liens ou que vous en recevez naturellement, le fait qu’il y ait plusieurs portes d’entrées va diluer / disperser la valeur de ces liens entrants alors que si tous ces liens arrivaient sur une seule et même page, son poids en termes de notoriété et de popularité serait plus important.

Pour résumer, le contenu dupliqué bride le potentiel de vos contenus en termes de visibilité sur les moteurs de recherche et affecte votre trafic SEO négativement.

Mais je vous rassure, il existe des solutions !

Comment corriger ou supprimer le contenu dupliqué ?

Détecter le duplicate content externe

Lorsqu’on soupçonne un plagiat, il existe des outils pour détecter les sites qui auraient copié notre contenu. Positeo, Plagium et Copyscape possèdent des version gratuites. Toutefois, elles montrent vite leurs limites. Si l’on souhaite détecter du contenu dupliqué en masse, il est nécessaire de prendre les versions payantes.

Détecter le contenu dupliqué interne

Seul un outil de crawl peut mettre en lumière le duplicate content interne d’un site. Parmi les plus performants : Botify et Oncrawl. Il existe aussi des outils moins puissants destinés aux petits sites, comme Site Analyzer ou Screaming Frog Spider dans sa version freemium.
Ces outils permettent de voir le pourcentage de duplication entre les pages. Les plus puissants distinguent la duplication du contenu pur (description des articles par exemple) du template (qu’on retrouve sur toutes les pages du site).

Comment vérifier la présence de contenu dupliqué ?

Il existe heureusement des techniques pour se prémunir du contenu dupliqué qui ne saute pas toujours aux yeux.

Eviter le duplicate content grâce à l’attribut rel=canonical

La meilleure solution pour éviter le contenu dupliqué est d’utiliser l’attribut rel=canonical. Cet attribut sert à indiquer aux moteurs de recherche quelle URL doit être considérée comme l’originale. Ainsi, si les robots rencontrent une page dupliquée, ils sauront qu’il ne faut pas en tenir compte.

L’attribut rel= »canonical » s’intègre directement dans l’en-tête HTML de la page (ou “header”).
Il se présente sous cette forme :

Format général :

….[code de l’entête]…..

Cette balise doit être ajoutée sur chaque version dupliquée. La page originale elle, doit aussi comporter une url canonique, qui pointera cette fois vers elle-même.

Les redirections 301

Parfois, le contenu dupliqué est ponctuel. Il peut s’agir par exemple d’une nouvelle page produit avec une nouvelle référence, mais dont le contenu est identique à l’ancienne version du produit (passée en rupture de stock). Dans ce cas-là, la balise canonique n’est pas des plus judicieuses car les moteurs de recherche continueraient à crawler l’ancienne version devenue obsolète. Une redirection 301 permet d’éviter le duplicate content tout en transmettant la popularité de l’ancienne page.

L’utilisation d’une Meta Robots Noindex

Il s’agit ici de la solution la moins “propre”. En effet, un site bien construit ne devrait pas avoir besoin de mettre des pages en noindex. Néanmoins, certaines contraintes techniques empêchent parfois de mettre en application les meilleures pratiques. La balise content= »noindex,follow » a l’avantage de pouvoir être ajoutée manuellement sur chaque page. Cela permet notamment de corriger rapidement des problèmes de contenu dupliqué, en attendant de pouvoir trouver une solution plus pérenne.

Elle se présente comme suit :

….[code du header]….. »> »robots

Cette balise autorise les robots à parcourir les pages mais en empêche l’indexation. En l’utilisant, on se “dédouane” donc auprès des moteurs de recherche. C’est un peu comme si on leur disait “je sais que j’ai des pages dupliqués, mais promis je ne fais pas exprès et je n’essaie pas de manipuler les robots pour avoir plusieurs pages identiques dans les SERP !”.

Une erreur courante est d’interdire en plus l’exploration de ces pages dans le robots.txt. Pour que les robots puissent voir la balise Noindex, il faut qu’ils puissent les explorer.

Gestion des domaines et paramètres préférés dans Google Search Console

La Google Search Console vous permet de définir le domaine préféré de votre site tout en spécifiant si Googlebot doit parcourir différemment les multiples paramètres URL. Selon la structure de votre site et selon l’origine de votre contenu dupliqué, la configuration de votre domaine préféré et/ou la gestion des paramètres peut être une solution d’appoint. C’est en effet une méthode qui ne sera valable que pour Google. Vous ne corrigerez donc pas vos problèmes aux yeux de Bing ou des autres moteurs de recherche. Pour cela il faut répercuter aussi ces changements dans les outils pour les webmasters des autres moteurs de recherche, ce qui peut être assez laborieux ! Il est toujours préférable de traiter le fond plutôt que de mettre un “pansement”.

Soigner son maillage interne

Lorsqu’on arrive à élaborer une structure propre exempte de contenu dupliqué, il est essentiel de conserver une cohérence dans le maillage interne. Chaque lien interne doit pointer vers l’URL canonique et non vers la page dupliquée. Votre budget crawl n’en sera que préservé !

Conclusion

Le contenu dupliqué est donc une problématique de taille pour tous les sites, en particulier les e-commerces. Même avec de l’expérience, il est parfois difficile d’anticiper tous les cas potentiels de duplicate content. C’est pourquoi il est essentiel d’investir dans un bon outil de crawl qui permettra d’effectuer une veille constante sur l’état de son site.