La console de recherche Google avertit les éditeurs des erreurs 404 : 404 et soft 404.

Bien qu’ils s’appellent tous les deux 404, ils sont très différents.

Par conséquent, il est essentiel de comprendre la différence entre les erreurs pour les corriger.

Codes d’état HTTP

Une page Web accessible par un navigateur répond avec un code d’état qui indique si la demande a réussi et, si ce n’est pas le cas, pourquoi elle n’a pas réussi.

Ces réponses sont communiquées avec ce que l’on appelle des codes de réponse HTTP, mais officiellement, elles sont appelées codes d’état HTTP.

Un serveur fournit cinq catégories de codes de réponse ; cet article concerne spécifiquement une réponse, le code d’état 404 page introuvable.

La signification d’un code de réponse 404

Tous les codes de la série de réponses 4xx signifient que la demande n’a pas pu être satisfaite car la page n’a pas été trouvée.

La définition officielle est :

4xx (erreur client) : la requête contient une mauvaise syntaxe ou ne peut pas être satisfaite

La réponse 404 est ambiguë quant à savoir si la page Web peut revenir.

Exemples de raisons pour lesquelles une page 404 introuvable se produit

  • Si quelqu’un supprime par erreur une page Web, le serveur répond avec la réponse 404 page introuvable.
  • Si quelqu’un établit un lien vers une page Web inexistante, le serveur répond que la page n’a pas été trouvée (404).

La documentation officielle est claire sur l’ambiguïté de savoir si une page est temporairement ou définitivement disparue :

« Le code d’état 404 (Non trouvé) indique que le serveur d’origine n’a pas trouvé de représentation actuelle pour la ressource cible ou n’est pas disposé à divulguer qu’il en existe une.

Un code de statut 404 n’indique pas si cette absence de représentation est temporaire ou permanente…”

Pour résumer, le code 404 page introuvable signifie qu’il y a eu une erreur dans la requête du navigateur car la page demandée est introuvable.

Qu’est-ce qu’une erreur logicielle 404 ?

Une erreur soft 404 n’est pas un code d’état officiel. Le serveur n’envoie pas de réponse soft 404 à un navigateur car il n’existe pas de code d’état soft 404.

Doux 404 décrit une situation où le serveur présente une page Web et répond avec un code d’état 200 OK, indiquant le succès lorsque la page Web ou le contenu est réellement manquant.

Quatre raisons courantes pour un Soft 404

Une page Web est manquante et un serveur envoie un état 200 OK.

Ce type de soft 404 se produit lorsqu’une page est manquante, mais la configuration du serveur redirige la page manquante vers la page d’accueil ou une URL personnalisée.

La page a disparu, mais l’éditeur a fait quelque chose pour répondre à la demande de la page manquante.

Le contenu est manquant ou « mince ».

Lorsque le contenu est complètement manquant, ou qu’il y en a très peu (c’est-à-dire du contenu léger), le serveur répondra avec un code d’état 200, ce qui signifie que la demande de la page a réussi.

Mais pour indexer les pages Web qui ne sont pas des requêtes de page Web réussies, les moteurs de recherche appellent ce soft 404.

La page manquante redirige vers la page d’accueil.

Certains pensent à tort qu’il y a quelque chose qui ne va pas avec une réponse d’erreur 404.

Ainsi, pour arrêter les réponses d’erreur 404, un éditeur peut rediriger la page manquante vers la page d’accueil, même si la page d’accueil ne correspond pas à ce qui a été demandé.

Google appelle ces requêtes de page échouées soft 404s.

Page manquante redirigée vers une page Web personnalisée.

Parfois, les pages manquantes redirigent vers une page Web personnalisée qui sert un code d’état 200, ce qui amène Google à étiqueter ces pages comme des soft 404.

Qui a inventé le Phrase Soft 404 ?

Le concept d’un soft 404 peut provenir d’un document de recherche de 2004 intitulé Towards an Understanding of the Web’s Decay (PDF).

Les pages manquantes qui sont mal remplacées posent un problème aux moteurs de recherche qui tentent d’indexer de vraies pages.

Voici comment le document de recherche encadre les soft 404 :

« Selon le protocole HTTP lorsqu’une requête est faite à un serveur pour une page qui n’est plus disponible, le serveur est censé renvoyer un code d’erreur…

… en fait, de nombreux serveurs, y compris les plus réputés, ne renvoient pas de code 404. Au lieu de cela, les serveurs renvoient une page de remplacement et un code OK (200).

… Notre étude montre que ce type de substitutions, appelées « soft-404 », représentent plus de 15 % des liens morts.

Soft 404 en raison d’erreurs de codage

Il y a des cas où la page n’est pas manquante, mais des problèmes spécifiques (comme des erreurs de codage) ont poussé Google à la catégoriser comme une page manquante.

Les Soft 404 sont essentiels pour enquêter car ils pourraient signaler un code cassé.

Problèmes de codage typiques :

  • Fichier manquant ou inclusion censé remplir une page Web avec du contenu.
  • Erreur de la base de données.
  • JavaScript manquant.
  • Pages de résultats de recherche vides.

Les erreurs 404 ont deux causes principales

  • Une erreur dans le lien dirige les utilisateurs vers une page qui n’existe pas.
  • Un lien vers une page qui existait auparavant mais qui a soudainement disparu.

Erreur de liaison

Si la cause du 404 est une erreur de liaison, vous devez corriger les liens.

La partie délicate de cette tâche consiste à trouver tous les liens brisés sur un site. Il peut être plus difficile d’explorer de grands sites complexes avec des milliers ou des millions de pages.

Dans des cas comme celui-ci, les outils d’exploration sont utiles.

Vous avez le choix entre de nombreuses options de logiciel de robot d’exploration de site : Xenu et Greenflare gratuits ; ou des logiciels payants comme Screaming Frog, DeepCrawl, Botify, Sitebulb et OnCrawl, où plusieurs d’entre eux ont des versions d’essai gratuites ou des versions gratuites mais limitées.

Une page qui n’existe plus

Lorsqu’une page n’existe plus, deux options s’offrent à vous :

  • Restaurez la page si la suppression était accidentelle.
  • 301 le redirige vers la page connexe la plus proche si la suppression était intentionnelle.

Tout d’abord, vous devez localiser toutes les erreurs de liens sur le site. Semblable à la recherche de toutes les erreurs de liaison pour un site Web à grande échelle, vous pouvez utiliser des outils d’exploration.

Cependant, les outils d’exploration peuvent ne pas trouver de pages orphelines : des pages non liées depuis n’importe où dans les liens de navigation ou depuis l’une des pages.

Des pages orphelines peuvent exister si elles faisaient partie du site Web, puis, après une refonte du site Web, le lien menant à cette ancienne page disparaît, mais des liens externes d’autres sites Web peuvent toujours être liés à celles-ci.

Pour vérifier si ces types de pages existent sur votre site, vous pouvez utiliser divers outils.

Comment identifier les pages de réponse 404

Rapports de la console de recherche Google

Le rapport de couverture répertorie les URL d’erreur 404 sur un site Web.

Rapport 404 de la console de recherche

La console de recherche signalera 404 pages au fur et à mesure que Google parcourra toutes les pages qu’il peut trouver. Cela peut inclure des liens d’autres sites vers une page qui existait auparavant sur votre site Web.

Google Analytics

Vous ne trouverez pas de rapport de page manquante dans Google Analytics par défaut. Cependant, vous pouvez les suivre de différentes manières.

D’une part, vous pouvez créer un rapport personnalisé et segmenter les pages avec un titre de page mentionnant Erreur 404 – Page non trouvée.

Une autre façon de trouver des pages orphelines dans Google Analytics consiste à créer des groupes de contenu personnalisés et à attribuer les 404 pages à un groupe de contenu.

Site : commande de recherche d’opérateur

On ne peut pas utiliser la commande site: search pour trouver les erreurs 404 car Google n’indexe pas les pages Web 404 ou les pages Web soft 404.

Site de Google : l’opérateur de recherche est utile pour trouver des pages Web sur un site qui contiennent une expression de mot clé spécifique dans le contenu des pages Web.

La console de recherche de Google est la meilleure source pour identifier une liste de soft 404 et de 404 standard.

Les journaux d’erreurs de trafic du site Web sont une source utile pour identifier les réponses d’erreur 404.

Autres outils de recherche de backlinks

Des outils de recherche de backlinks tels que Majestic, Ahrefs, Moz Open Site Explorer, Sistrix, Semrush, LinkResearchTools et CognitiveSEO peuvent également vous aider.

La plupart de ces outils exporteront une liste de backlinks pointant vers votre domaine. À partir de là, vous pouvez vérifier toutes les pages liées et rechercher les erreurs 404.

Comment réparer les erreurs Soft 404

Les outils d’exploration ne détecteront pas un soft 404 car il ne s’agit pas d’une erreur 404. Mais vous pouvez utiliser des outils d’exploration pour attraper autre chose.

Voici quelques éléments à trouver :

  • Contenu fin : Certains outils d’exploration signalent les pages qui ont un contenu fin avec un nombre de mots triable. Commencez par les pages avec le moins de mots pour évaluer si la page a un contenu léger.
  • Contenu dupliqué : Certains outils d’exploration sont suffisamment sophistiqués pour discerner quel pourcentage de la page correspond au contenu du modèle. Et il existe également des outils spécialement conçus pour trouver du contenu interne en double comme SiteLiner. Si le contenu principal est presque le même que celui de nombreuses autres pages, vous devriez examiner ces pages et déterminer pourquoi le contenu en double existe sur votre site.

Outre les outils d’exploration, vous pouvez également utiliser Google Search Console et vérifier les erreurs d’exploration pour trouver les pages répertoriées sous les soft 404.

L’exploration d’un site entier pour trouver les problèmes qui causent des 404 logiciels vous permet de localiser et de corriger les problèmes avant que Google ne les détecte.

Après avoir détecté ces problèmes logiciels 404, vous devrez les corriger.

La plupart du temps, les solutions semblent relever du bon sens. Cela peut inclure des choses simples comme l’expansion des pages avec un contenu léger ou le remplacement du contenu en double par de nouveaux et uniques.

Tout au long de ce processus, voici quelques points à considérer :

Consolider les pages

Parfois, un contenu léger est dû au fait que le sujet de la page est trop spécifique, ce qui vous laisse peu à dire.

La fusion de plusieurs pages fines en une seule peut être plus appropriée si les sujets sont liés. Non seulement cela résout les problèmes de contenu léger, mais cela peut également résoudre les problèmes de contenu en double.

Par exemple, un site de commerce électronique vendant des chaussures de différentes couleurs et tailles peut avoir une URL différente pour chaque combinaison de taille et de couleur. Cela laisse un grand nombre de pages avec un contenu mince et relativement identique.

L’approche la plus efficace consiste à mettre tout cela sur une seule page et à énumérer les options disponibles.

Trouver les problèmes techniques qui causent du contenu en double

En utilisant même l’outil d’exploration Web le plus simple comme Xenu (qui ne regarde pas le contenu mais seulement les URL, les codes de réponse et les balises de titre), vous pouvez toujours trouver des problèmes de contenu en double en regardant les URL.

Cela inclut les URL www et non www, HTTP et HTTPS, avec index.html et sans, avec et sans paramètres de suivi, etc.

Erreurs 404 et erreurs 404 logicielles

La chose la plus importante à retenir à propos des erreurs 404 est que si les pages manquent vraiment, il n’y a rien à corriger. Vous pouvez afficher une réponse 404 pour les demandes de pages qui n’existent pas.

Mais si les pages existent mais sur une URL différente, alors c’est quelque chose à corriger en redirigeant un lien brisé vers l’URL réelle, en restaurant une page manquante ou en redirigeant l’ancienne URL vers une nouvelle page qui l’a remplacée.

Un soft 404 est toujours le résultat d’un problème qui doit être diagnostiqué et résolu.

Comprendre la différence entre les 404 est essentiel pour maintenir un site Web fonctionnant à des performances optimales.


Image en vedette : Paulo Bobita/Journal des moteurs de recherche

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici