John Mueller de Google a récemment répondu à la question de savoir s’il existe un seuil de pourcentage de duplication de contenu que Google utilise pour identifier et filtrer le contenu en double.

Quel pourcentage équivaut à un contenu dupliqué ?

La conversation a en fait commencé sur Facebook lorsque Duane Forrester (@DuaneForrester) a demandé si quelqu’un savait si un moteur de recherche a publié un pourcentage de chevauchement de contenu auquel le contenu est considéré comme dupliqué.

Bill Hartzer (bhartzer) s’est tourné vers Twitter pour demander à John Mueller et a reçu une réponse quasi immédiate.

Bill a tweeté:

« Hey @johnmu, y a-t-il un pourcentage qui représente le contenu dupliqué ?

Par exemple, devrions-nous essayer de nous assurer que les pages sont uniques à au moins 72,6 % par rapport aux autres pages de notre site ?

Google le mesure-t-il même ? »

John Mueller de Google a répondu :

Comment Google détecte-t-il le contenu en double ?

La méthodologie de Google pour détecter le contenu dupliqué est restée remarquablement similaire pendant de nombreuses années.

En 2013, Matt Cutts (@mattcutts), un ingénieur logiciel de Google à l’époque a publié une vidéo officielle de Google décrivant comment Google détecte le contenu dupliqué.

Il a commencé la vidéo en déclarant qu’une grande partie du contenu Internet est en double et que c’est une chose normale.

« Il est important de ne pas se rendre compte que si vous regardez du contenu sur le Web, quelque chose comme 25 % ou 30 % de tout le contenu du Web est du contenu dupliqué.

… Les gens citent un paragraphe d’un blog, puis un lien vers le blog, ce genre de chose.

Il a poursuivi en disant que, parce qu’une grande partie du contenu dupliqué est innocent et sans intention de spam, Google ne pénalisera pas ce contenu.

Selon lui, pénaliser les pages Web pour avoir du contenu en double aurait un effet négatif sur la qualité des résultats de recherche.

Ce que fait Google lorsqu’il trouve du contenu en double :

« … essayez de tout regrouper et de le traiter comme s’il ne s’agissait que d’un seul élément de contenu. »

Mat a poursuivi :

« C’est juste traité comme quelque chose que nous devons regrouper de manière appropriée. Et nous devons nous assurer qu’il se classe correctement.

Il a expliqué que Google choisit ensuite la page à afficher dans les résultats de recherche et qu’il filtre les pages en double afin d’améliorer l’expérience utilisateur.

Comment Google gère le contenu dupliqué – Version 2020

Avance rapide jusqu’en 2020 et Google a publié un épisode de podcast Search Off the Record où le même sujet est décrit dans un langage remarquablement similaire.

Voici la section pertinente de ce podcast à partir des minutes 06:44 dans l’épisode :

« Gary Illyes : Et maintenant, nous nous sommes retrouvés avec l’étape suivante, qui est en fait la canonisation et la détection des dupes.

Martin Splitt : N’est-ce pas la même chose, la détection des dupes et la canonisation, en quelque sorte ?

Gary Illyes : [00:06:56] Eh bien, ce n’est pas le cas, n’est-ce pas ? Parce que vous devez d’abord détecter les dupes, les regrouper en gros, en disant que toutes ces pages sont dupes les unes des autres,
et puis vous devez essentiellement trouver une page leader pour chacun d’eux.

…Et c’est la canonisation.

Donc, vous avez la duplication, qui est le terme entier, mais à l’intérieur de cela, vous avez la construction de clusters, comme la construction de clusters dupes, et la canonisation. « 

Gary explique ensuite en termes techniques comment ils procèdent exactement. Fondamentalement, Google ne regarde pas exactement les pourcentages, mais compare plutôt les sommes de contrôle.

Une somme de contrôle peut être considérée comme une représentation du contenu sous la forme d’une série de chiffres ou de lettres. Donc, si le contenu est en double, la séquence de numéros de somme de contrôle sera similaire.

Voici comment Gary l’a expliqué :

« Donc, pour la détection des dupes, ce que nous faisons, eh bien, nous essayons de détecter les dupes.

Et la façon dont nous procédons est peut-être la manière dont la plupart des utilisateurs d’autres moteurs de recherche le font, c’est-à-dire, en gros, réduire le contenu en un hachage ou une somme de contrôle, puis comparer les sommes de contrôle.

Gary a déclaré que Google procédait de cette façon parce que c’était plus facile (et évidemment précis).

Google détecte le contenu en double avec des sommes de contrôle

Donc, quand on parle de contenu dupliqué, ce n’est probablement pas une question de seuil de pourcentage, où il y a un nombre auquel le contenu est dit être dupliqué.

Mais plutôt, le contenu dupliqué est détecté avec une représentation du contenu sous la forme d’une somme de contrôle, puis ces sommes de contrôle sont comparées.

Un autre point à retenir est qu’il semble y avoir une distinction entre le moment où une partie du contenu est en double et tout le contenu est en double.


Image sélectionnée par Shutterstock/Ezume Images

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici