Contenu dupliqué en SEO
Le contenu dupliqué en SEO est un texte réutilisé à plusieurs reprises sur le web. On parle également de duplicate content pour désigner ce type de contenu, qui peut s’avérer néfaste pour votre stratégie SEO. #Mise en Valeur vous donne la définition du contenu dupliqué, et vous explique tout ce que vous devez savoir sur le sujet.
Qu’est-ce que le contenu dupliqué en SEO ?
Pour commencer, il paraît utile de définir la duplication de contenu, pour donner une image claire du sujet.
Définition du contenu dupliqué
Traduction de l’anglais « duplicate content », le contenu dupliqué est un terme SEO assez important dans la création de contenus.
Sur un site internet, le contenu dupliqué est la réutilisation totale ou partielle d’un contenu déjà indexé sur le web.
Une manière simple de présenter la chose est de parler d’un « copier-coller ». Si vous faites un copier-coller d’un article web, et que vous le publiez sur votre site internet, les moteurs de recherche vont considérer votre page comme du duplicate content.
On peut parler de « pourcentage de contenu dupliqué », pour désigner l’ampleur de la copie. Une page copiée-collée aura un pourcentage de 100 %, tandis que ce pourcentage sera plus faible si seules quelques phrases ont été copiées d’une autre page web.
L’utilisation de duplicate content peut avoir un impact négatif sur le positionnement sur les moteurs de recherche.
Duplication de contenu, copie ou plagiat ?
Il est important de ne pas confondre le plagiat, la copie et la duplication de contenu. En réalité, il existe de subtiles différences entre ces termes :
- Concrètement, la notion de contenu dupliqué est purement technique. Ce sont les moteurs de recherche, comme Google, qui vont identifier le contenu dupliqué quand ils parcourent la page. S’ils remarquent que votre contenu est déjà présent ailleurs sur le web, le positionnement de votre page risque d’en pâtir.
- Au contraire, la notion de plagiat ou copie est avant tout juridique. Un auteur pourrait découvrir que vous avez copié son œuvre, et vous poursuivre pour cela. Au contraire, Google pourrait ne pas remarquer un plagiat sans copie. Si vous reprenez trait pour trait le plan d’un article, mais en utilisant des synonymes et des tournures de phrase différentes, cela ne sera pas considéré comme du duplicate content par les moteurs de recherche.
En sanctionnant le duplicate content, les moteurs de recherche sanctionnent avant tout le caractère non original (et donc peu utile) du contenu. Mais ils ne s’intéressent pas à la notion de plagiat sur le plan juridique.
L’auteur d’un texte copié-collé pourrait quant à lui décider de vous poursuivre pour plagiat, ce qui n’est pas le sujet de notre article.
Le pourcentage de contenu dupliqué
Pour finir sur la présentation du concept, on peut évoquer la notion de pourcentage de duplicate content. Le pourcentage est une notion utile pour définir la « gravité » d’une duplication de textes.
Un pourcentage de duplication de contenu est tout simplement le ratio entre la part de texte original et la part de texte dupliqué. Si j’écris un article de 1000 mots, et que Google identifie 500 mots issus d’une autre page, le taux de duplication sera de 50 %. S’il n’identifie « que » 250 mots copiés, le taux passera à 25 %.
Le pourcentage de duplicate content est un indice clair de l’intention de l’auteur :
- Si un texte a moins de 5 % de contenu dupliqué, il se peut que la copie soit fortuite.
- Entre 5 et 10 % de duplicate, l’auteur a certainement repris à l’identique une phrase ou deux, de l’une de ses sources.
- Si un texte a entre 10 et 30 % de contenu dupliqué, le rédacteur a certainement copié-collé plusieurs phrases entières.
- Au-delà de 30 % de duplicate, la copie est évidente (qu’elle soit accidentelle ou non).
Naturellement, l’analyse doit idéalement se faire sur un texte de plusieurs centaines de mots pour être pertinente. Si vous analysez un texte de 20 mots, le risque de duplicate content est forcément plus élevé !
Les deux types de contenus dupliqués
Pour bien comprendre la notion de duplication de contenu, il faut connaître les deux types de contenus dupliqués. En effet, on pense souvent à tort que le duplicate content est la copie des textes d’un autre site web, mais ce n’est pas forcément le cas.
Content duplicate externe
Il est évident que le fait le plus connu est le content duplicate externe. La duplication de contenu externe est le fait de récupérer les textes sur un autre site web que le sien. Il peut s’agir d’un copier-coller, ou de la réutilisation de phrases entières ou de morceaux de phrases.
Cette duplication peut être volontaire (l’éditeur du site a volontairement copié-collé des phrases ou une page web) ou accidentelle (le rédacteur web a gardé quelques tournures de phrases similaires).
On notera que le contenu dupliqué externe peut aussi être réalisé sans intention de « voler » des textes. Un site de e-commerce qui réutilise les descriptions produits de ses fournisseurs sans les réécrire a ainsi des risques importants de faire du contenu dupliqué, puisque ces mêmes descriptifs peuvent tout à fait être utilisés par différents sites web qui vendent le même produit.
Contenu dupliqué interne
Attention néanmoins à ne pas négliger un second risque : celui de vous copier vous-même ! Le contenu dupliqué interne est le fait d’utiliser les mêmes textes sur plusieurs pages d’un site web.
Une fois encore, cette copie peut être :
- Volontaire : l’éditeur utilise toujours le même texte de présentation de son entreprise ou décide de copier-coller le même argumentaire client sur certaines de ses pages, pour gagner du temps.
- Ou accidentelle : l’équipe technique a dupliqué plusieurs fois la même page, le rédacteur web a oublié de modifier un texte de remplissage, ou un même texte figure sur toutes les pages d’un site web.
À nouveau, les sites de e-commerce sont les plus susceptibles de dupliquer leurs propres contenus. Imaginons que vous vendez des pots de peinture, si vous utilisez la même description pour chaque fiche, en changeant uniquement la couleur de peinture, toutes vos fiches produits auront un pourcentage important de contenu dupliqué.
Important : quand on parle de duplication de contenu, on ne prend pas en compte le menu d’un site web ou les parties fixes (colonne de droite, footer, etc.). En effet, il est évident que votre menu de site web sera présent sur chaque page du site. Cela ne veut pas dire que Google va le considérer comme du contenu dupliqué ! C’est bien le texte présent sur les pages qui sera considéré ou non comme du contenu dupliqué.
Les risques de la duplication de contenu SEO
Désormais, nous avons une vision claire de la définition du contenu dupliqué. Mais reste encore à savoir en quoi ce type de contenu est potentiellement nuisible.
Pourquoi la duplication de contenu n’est-elle pas appréciée ?
Si vous vous informez sur les bases du SEO et sur la création de contenus, vous avez déjà certainement entendu parler des risques liés à la duplication des contenus.
Concrètement, les moteurs de recherche comme Google n’apprécient pas le contenu dupliqué pour différentes raisons :
- Un moteur de recherche fonctionne à l’aide de robots, des sortes de mini programmes qui analysent les pages des sites web. Quand ces programmes détectent du contenu dupliqué, le moteur de recherche a l’impression de perdre son temps.
- Par ailleurs, la création de contenus est l’essence de tout moteur de recherche. Si Google met en avant un site web, c’est parce qu’il a compris que son contenu était intéressant pour la cible. Or, tout contenu dupliqué ne sera pas considéré comme intéressant, puisqu’il n’apporte rien de neuf pour l’internaute.
- Si deux pages ont le même contenu, Google va préférer référencer la première page qu’il a indexée avec ce contenu (ou la page la plus populaire). Quand il détectera du duplicate sur la seconde page, il ne jugera pas utile de la positionner correctement sur ses moteurs de recherche.
Il est donc bon de comprendre que les moteurs de recherche mettent en avant du contenu utile, intéressant et original. Un texte majoritairement copié d’ailleurs ne cochera pas ces différentes cases, et aura très peu de chances d’être référencé.
Duplicate content : les risques
La duplication de contenu peut être plus ou moins nuisible à votre stratégie SEO. Il faut savoir que le risque principal lié à la duplication de contenu est un très mauvais positionnement de votre page sur les moteurs de recherche. Au niveau d’un site internet, l’utilisation systématique de contenus dupliqués vous empêchera tout simplement de faire du trafic SEO.
Les risques du contenu dupliqué sont donc les suivants :
- À l’échelle d’une page, la présence de contenu dupliqué peut tout simplement vous empêcher d’être correctement positionné sur Google, et donc de faire du trafic. Sur du duplicate interne, Google ne pourrait référencer correctement qu’une seule des différentes pages qui contient le même texte.
- À l’échelle d’un site, la multiplication de contenus dupliqués peut nuire considérablement au positionnement et à l’indexation de vos pages. À force de voir toujours le même contenu, Google peut décider de ne plus indexer vos pages, ou plutôt de les indexer moins souvent. Votre site ne l’intéressera tout simplement plus. C’est assez important concernant le contenu dupliqué interne, car une très grande quantité de pages similaires peut nuire à l’ensemble du site.
- Contrairement à ce qui fut le cas, il est de plus en plus rare qu’un site soit pénalisé par Google. La présence de contenu dupliqué sur certaines de vos pages ne va pas, en théorie, nuire directement au positionnement des autres pages du site web. Néanmoins, si vous avez un site web bien positionné qui commence à faire du contenu dupliqué en masse, son positionnement à long terme risque d’en pâtir (car les moteurs de recherche peuvent décider de l’indexer moins souvent, du fait du manque de pertinence des nouveaux contenus).
Naturellement, nous parlons ici uniquement des risques liés au SEO. Du point de vue juridique, si vous vous amusez à copier-coller toutes les pages d’un site internet (ou de plusieurs sites internet), les éditeurs desdits sites seront à même de vous poursuivre s’ils le souhaitent.
Une stratégie SEO fondée sur le duplicate content n’est donc tout simplement pas une stratégie SEO, puisqu’elle n’a aucune chance de fonctionner. Méfiez-vous donc de tout rédacteur web ou de tout « spécialiste SEO » qui utiliserait des contenus dupliqués ou vous suggérerait de le faire.
Comment reconnaître un contenu dupliqué ?
Un moteur de recherche n’a aucun mal à reconnaître du contenu dupliqué. Quand il indexe une page (et examine son contenu), cette dernière est comparée avec les pages déjà indexées, et le moteur de recherche peut identifier si le texte est déjà indexé ailleurs.
Pour un être humain, il est nécessaire d’utiliser un logiciel de détection de contenu dupliqué. Nous vous présentons ici Copyscape, que nous utilisons personnellement et qui nous semble une excellente solution pour identifier du duplicate content.
Comment savoir si un contenu est dupliqué ?
L’outil copyscape est un outil de détection de contenu dupliqué. Il propose un outil de comparaison de texte gratuit, qui permet de comparer deux textes ou deux liens pour définir le pourcentage de contenu dupliqué entre les deux pages.
Pour identifier un contenu dupliqué, il faut néanmoins utiliser la version payante de Copyscape. Copyscape permet d’analyser un texte pour identifier s’il est dupliqué ailleurs sur le net. Cet outil reste très abordable, puisqu’il fonctionne à l’aide de crédits (et non pas d’un abonnement), et que chaque recherche vous coûtera environ 20 centimes.
C’est un outil très efficace pour :
- Analyser vos propres textes à la recherche de contenus dupliqués.
- Tester les textes de vos rédacteurs web pour vous assurer qu’ils ne font pas de copier-coller.
- Vérifier que vos articles ne sont pas copiés par des concurrents.
Concrètement, l’intérêt premier d’un outil de détection de contenu dupliqué est d’éviter d’utiliser des contenus dupliqués sur votre site. L’enjeu est d’éviter la présence de contenu dupliqué sur toutes les pages que vous souhaitez positionner sur les moteurs de recherche.
Une recherche premium de Copyscape vous permet d’identifier si un texte est dupliqué et vous donne des informations précises sur le pourcentage de duplicate, pour chaque page copiée.
Comment connaître son pourcentage de contenu dupliqué ?
Comme vu plus haut, le pourcentage de duplicate content est le ratio taille du texte/part de contenu dupliqué.
Si vous utilisez un logiciel de détection, ce dernier mentionnera le pourcentage de duplicate, et mettre en valeur les parties dupliquées du texte. C’est une manière assez simple d’identifier si le duplicate est intentionnel ou accidentel.
Ci-dessous, voici un exemple de résultat Copyscape qui présente le pourcentage de duplicate d’une page. Ici, on remarque que 520 mots sont dupliqués, ce qui correspond à 25 % de la page (ce qui est déjà conséquent).
Exemple de duplicate content
À présent que nous avons fait le tour du sujet, il nous paraît intéressant de faire un petit test de Copyscape, pour vous donner un exemple de contenu dupliqué !
Contenu dupliqué : exemple
Pour cela, nous avons décidé de passer à Copyscape le texte de la première page référencée par Google sur le mot clé « Contenu dupliqué ». Il s’agit d’un article du Journal du Net. Du fait de la notoriété du site et de la bonne position de la page, on peut imaginer que le contenu de cette page est original. En revanche, il y a des risques que certains sites s’en soient « inspirés » pour écrire à leur tour sur le contenu dupliqué, étant donné la visibilité de ladite page.
Faisons donc un peu d’inception en nous intéressant aux sites qui dupliquent du contenu pour proposer un article sur le contenu dupliqué ! Dans les faits, bonne nouvelle : Copyscape ne remonte qu’un seul résultat sur cette page, d’une copie qui avouons-le reste très anecdotique. On remarque ainsi qu’un autre site remonte 3% de duplicate, après avoir certainement récupéré la définition utilisée sur le Journal du Net :
Dans l’exemple ci-dessus, le duplicate concerne 31 mots sur un article d’environ 1030 mots (soit 3%). On remarque finalement qu’il s’agit d’une simple phrase (les deux occurrences de « le contenu dupliqué » pouvant difficilement être assimilées à de la copie !).
Quel pourcentage de duplicate content faut-il tolérer ?
Comme le montre notre exemple, même un copier-coller très léger peut être détecté par Copyscape (et donc par les moteurs de recherche). Dans cet exemple, le duplicate reste clairement bénin et ne représente aucun risque pour le site. Néanmoins, profitons de l’occasion pour en conclure sur le pourcentage de duplicate à tolérer.
À titre informatif, le contenu de la page que vous avez sous les yeux affiche à l’heure de cette rédaction 0% de contenu dupliqué sur Copyscape. Il est donc tout à fait possible de proposer des contenus longs et sans aucun passage copié-collé.
Si certains sites affirment que Google tolère jusqu’à 30 % de duplicate content (ce qui est une information invérifiable), nous vous conseillons de ne tolérer aucun duplicate content supérieur à 10 %, voire aucun duplicate content sur vos articles de blog et contenus phares. L’exemple ci-dessus vous montre que même un très léger pourcentage de duplicate prouve qu’un copier-coller a été réalisé. Il est donc évident qu’un article dupliqué à 20 % ou plus est clairement une copie, même si elle n’est que partielle.
Naturellement, tout dépend de la nature de votre page et de votre intérêt à la référencer. Un contenu dupliqué interne supérieur à 20 % ne représentera pas forcément une menace. Mais si vous publiez régulièrement des articles de blog et que vous avez une stratégie de content marketing, il nous paraît dommage de laisser passer des contenus fortement dupliqués…