Les mots-clés et le contenu peuvent être les deux piliers sur lesquels reposent la plupart des stratégies d’optimisation des moteurs de recherche, mais ils sont loin d’être les seuls qui comptent.

La possibilité de découvrir votre site Web est moins souvent discutée mais tout aussi importante – non seulement pour les utilisateurs mais aussi pour les robots de recherche.

Il existe environ 50 milliards de pages Web sur 1,93 milliard de sites Web sur Internet. C’est beaucoup trop pour qu’une équipe humaine puisse les explorer, donc ces robots, également appelés araignées, jouent un rôle important.

Ces robots déterminent le contenu de chaque page en suivant des liens d’un site Web à l’autre et d’une page à l’autre. Ces informations sont compilées dans une vaste base de données, ou index, d’URL, qui sont ensuite soumises à l’algorithme du moteur de recherche pour le classement.

Ce processus en deux étapes de navigation et de compréhension de votre site s’appelle l’exploration et l’indexation.

En tant que professionnel du référencement, vous avez sans aucun doute déjà entendu ces termes, mais définissons-les juste pour plus de clarté :

  • Crawlabilité fait référence à la capacité de ces robots de moteur de recherche à analyser et indexer vos pages Web.
  • Indexabilité mesure la capacité du moteur de recherche à analyser vos pages Web et à les ajouter à son index.

Comme vous pouvez probablement l’imaginer, ce sont deux éléments essentiels du référencement.

Si votre site souffre d’une mauvaise crawlabilité, par exemple, de nombreux liens brisés et de culs-de-sac, les robots des moteurs de recherche ne pourront pas accéder à tout votre contenu, ce qui l’exclura de l’index.

L’indexabilité, en revanche, est essentielle car les pages qui ne sont pas indexées n’apparaîtront pas dans les résultats de recherche. Comment Google peut-il classer une page qu’il n’a pas incluse dans sa base de données ?

Le processus d’exploration et d’indexation est un peu plus compliqué que ce dont nous avons discuté ici, mais c’est l’aperçu de base.

Si vous recherchez une discussion plus approfondie sur leur fonctionnement, Dave Davies a un excellent article sur l’exploration et l’indexation.

Comment améliorer l’exploration et l’indexation

Maintenant que nous avons couvert l’importance de ces deux processus, examinons certains éléments de votre site Web qui affectent l’exploration et l’indexation, et discutons des moyens d’optimiser votre site pour eux.

1. Améliorer la vitesse de chargement des pages

Avec des milliards de pages Web à cataloguer, les araignées Web n’ont pas toute la journée pour attendre que vos liens se chargent. C’est ce qu’on appelle parfois un budget de crawl.

Si votre site ne se charge pas dans le délai spécifié, ils quitteront votre site, ce qui signifie que vous resterez non exploré et non indexé. Et comme vous pouvez l’imaginer, ce n’est pas bon pour le référencement.

Ainsi, c’est une bonne idée d’évaluer régulièrement la vitesse de votre page et de l’améliorer partout où vous le pouvez.

Vous pouvez utiliser Google Search Console ou des outils comme Screaming Frog pour vérifier la vitesse de votre site Web.

Si votre site est lent, prenez des mesures pour atténuer le problème. Cela peut inclure la mise à niveau de votre serveur ou de votre plate-forme d’hébergement, l’activation de la compression, la réduction de CSS, JavaScript et HTML, et l’élimination ou la réduction des redirections.

Déterminez ce qui ralentit votre temps de chargement en consultant votre rapport Core Web Vitals. Si vous souhaitez des informations plus précises sur vos objectifs, en particulier d’un point de vue centré sur l’utilisateur, Google Lighthouse est un outil open source que vous trouverez peut-être très utile.

2. Renforcer la structure des liens internes

Une bonne structure de site et des liens internes sont des éléments fondamentaux d’une stratégie de référencement réussie. Un site Web désorganisé est difficile à explorer pour les moteurs de recherche, ce qui fait des liens internes l’une des choses les plus importantes qu’un site Web puisse faire.

Mais ne vous contentez pas de nous croire sur parole. Voici ce que l’avocat de la recherche de Google, John Mueller, avait à dire à ce sujet :

« Les liens internes sont extrêmement critiques pour le référencement. Je pense que c’est l’une des choses les plus importantes que vous puissiez faire sur un site Web pour guider Google et guider les visiteurs vers les pages que vous jugez importantes.

Si votre lien interne est médiocre, vous risquez également d’avoir des pages orphelines ou des pages qui ne renvoient à aucune autre partie de votre site Web. Étant donné que rien n’est dirigé vers ces pages, le seul moyen pour les moteurs de recherche de les trouver est à partir de votre sitemap.

Pour éliminer ce problème et d’autres causés par une mauvaise structure, créez une structure interne logique pour votre site.

Votre page d’accueil doit être liée à des sous-pages prises en charge par des pages situées plus bas dans la pyramide. Ces sous-pages devraient alors avoir des liens contextuels là où cela semble naturel.

Une autre chose à surveiller est les liens brisés, y compris ceux avec des fautes de frappe dans l’URL. Ceci, bien sûr, conduit à un lien rompu, ce qui conduira à la redoutable erreur 404. Autrement dit, page introuvable.

Le problème avec cela est que les liens brisés n’aident pas et nuisent à votre capacité d’exploration.

Revérifiez vos URL, en particulier si vous avez récemment subi une migration de site, une suppression groupée ou un changement de structure. Et assurez-vous que vous ne créez pas de lien vers des URL anciennes ou supprimées.

D’autres meilleures pratiques pour les liens internes incluent une bonne quantité de contenu pouvant être lié (le contenu est toujours roi), l’utilisation d’un texte d’ancrage au lieu d’images liées et l’utilisation d’un « nombre raisonnable » de liens sur une page (quoi que cela signifie).

Oh oui, et assurez-vous d’utiliser les liens de suivi pour les liens internes.

3. Soumettez votre sitemap à Google

Avec suffisamment de temps, et en supposant que vous ne lui ayez pas dit de ne pas le faire, Google explorera votre site. Et c’est très bien, mais cela n’aide pas votre classement de recherche pendant que vous attendez.

Si vous avez récemment apporté des modifications à votre contenu et que vous souhaitez que Google en soit informé immédiatement, nous vous conseillons de soumettre un sitemap à Google Search Console.

Un sitemap est un autre fichier qui réside dans votre répertoire racine. Il sert de feuille de route pour les moteurs de recherche avec des liens directs vers chaque page de votre site.

Ceci est bénéfique pour l’indexabilité car cela permet à Google d’en savoir plus sur plusieurs pages simultanément. Alors qu’un robot d’exploration peut avoir à suivre cinq liens internes pour découvrir une page profonde, en soumettant un plan de site XML, il peut trouver toutes vos pages en une seule visite sur votre fichier de plan de site.

Soumettre votre plan de site à Google est particulièrement utile si vous avez un site Web profond, ajoutez fréquemment de nouvelles pages ou du contenu, ou si votre site n’a pas de bons liens internes.

4. Mettre à jour les fichiers Robots.txt

Vous souhaitez probablement avoir un fichier robots.txt pour votre site Web. Bien que ce ne soit pas obligatoire, 99 % des sites Web l’utilisent en règle générale. Si vous n’êtes pas familier avec cela, il s’agit d’un fichier texte brut dans le répertoire racine de votre site Web.

Il indique aux robots des moteurs de recherche comment vous souhaitez qu’ils explorent votre site. Son utilisation principale est de gérer le trafic des robots et d’éviter que votre site ne soit surchargé de demandes.

Là où cela est utile en termes de crawlabilité, c’est de limiter les pages que Google explore et indexe. Par exemple, vous ne voulez probablement pas de pages telles que des répertoires, des paniers d’achat et des balises dans le répertoire de Google.

Bien sûr, ce fichier texte utile peut également avoir un impact négatif sur votre capacité d’exploration. Cela vaut la peine de regarder votre fichier robots.txt (ou de demander à un expert de le faire si vous n’êtes pas sûr de vos capacités) pour voir si vous bloquez par inadvertance l’accès des robots d’exploration à vos pages.

Certaines erreurs courantes dans les fichiers robots.text incluent :

  • Robots.txt n’est pas dans le répertoire racine.
  • Mauvaise utilisation des jokers.
  • Aucun index dans robots.txt.
  • Scripts, feuilles de style et images bloqués.
  • Aucune URL de plan de site.

Pour un examen approfondi de chacun de ces problèmes – et des conseils pour les résoudre, lisez cet article.

5. Vérifiez votre canonisation

Les balises canoniques consolident les signaux de plusieurs URL en une seule URL canonique. Cela peut être un moyen utile de dire à Google d’indexer les pages que vous souhaitez tout en évitant les doublons et les versions obsolètes.

Mais cela ouvre la porte aux balises canoniques escrocs. Celles-ci font référence à des versions plus anciennes d’une page qui n’existe plus, ce qui conduit les moteurs de recherche à indexer les mauvaises pages et à laisser vos pages préférées invisibles.

Pour éliminer ce problème, utilisez un outil d’inspection d’URL pour rechercher les balises malveillantes et les supprimer.

Si votre site Web est orienté vers le trafic international, c’est-à-dire si vous dirigez les utilisateurs de différents pays vers différentes pages canoniques, vous devez disposer de balises canoniques pour chaque langue. Cela garantit que vos pages sont indexées dans chaque langue utilisée par votre site.

6. Effectuez un audit de site

Maintenant que vous avez effectué toutes ces autres étapes, il vous reste encore une dernière chose à faire pour vous assurer que votre site est optimisé pour l’exploration et l’indexation : un audit de site. Et cela commence par vérifier le pourcentage de pages indexées par Google pour votre site.

Vérifiez votre taux d’indexabilité

Votre taux d’indexabilité est le nombre de pages dans l’index de Google divisé par le nombre de pages sur notre site Web.

Vous pouvez savoir combien de pages se trouvent dans l’index Google à partir de l’index de la console de recherche Google en accédant à l’onglet « Pages » et en vérifiant le nombre de pages sur le site Web à partir du panneau d’administration du CMS.

Il y a de fortes chances que votre site contienne des pages que vous ne voulez pas indexer, donc ce nombre ne sera probablement pas de 100 %. Mais si le taux d’indexabilité est inférieur à 90 %, vous avez des problèmes qui doivent être examinés.

Vous pouvez obtenir vos URL non indexées à partir de la Search Console et exécuter un audit pour elles. Cela pourrait vous aider à comprendre ce qui cause le problème.

Un autre outil d’audit de site utile inclus dans Google Search Console est l’outil d’inspection d’URL. Cela vous permet de voir ce que les araignées de Google voient, que vous pouvez ensuite comparer à de vraies pages Web pour comprendre ce que Google est incapable de rendre.

Auditer les pages nouvellement publiées

Chaque fois que vous publiez de nouvelles pages sur votre site Web ou que vous mettez à jour vos pages les plus importantes, vous devez vous assurer qu’elles sont indexées. Allez dans Google Search Console et assurez-vous qu’ils s’affichent tous.

Si vous rencontrez toujours des problèmes, un audit peut également vous donner un aperçu des autres parties de votre stratégie de référencement qui échouent, c’est donc une double victoire. Faites évoluer votre processus d’audit avec des outils tels que :

  1. Grenouille hurlante
  2. Semrush
  3. Zip cravate
  4. Exploration
  5. Lumar

7. Vérifiez le contenu de mauvaise qualité ou en double

Si Google ne considère pas votre contenu comme précieux pour les internautes, il peut décider qu’il ne vaut pas la peine d’être indexé. Ce contenu mince, comme on le sait, peut être un contenu mal écrit (par exemple, rempli de fautes de grammaire et d’orthographe), un contenu passe-partout qui n’est pas unique à votre site ou un contenu sans signaux externes sur sa valeur et son autorité.

Pour le trouver, déterminez quelles pages de votre site ne sont pas indexées, puis passez en revue les requêtes cibles pour celles-ci. Fournissent-ils des réponses de haute qualité aux questions des chercheurs ? Si ce n’est pas le cas, remplacez-les ou actualisez-les.

Le contenu dupliqué est une autre raison pour laquelle les bots peuvent rester bloqués lors de l’exploration de votre site. Fondamentalement, ce qui se passe, c’est que votre structure de codage l’a confondu et qu’il ne sait pas quelle version indexer. Cela peut être dû à des éléments tels que les identifiants de session, des éléments de contenu redondants et des problèmes de pagination.

Parfois, cela déclenchera une alerte dans Google Search Console, vous indiquant que Google rencontre plus d’URL qu’il ne le devrait. Si vous n’en avez pas reçu, vérifiez vos résultats d’exploration pour des éléments tels que des balises en double ou manquantes, ou des URL avec des caractères supplémentaires qui pourraient créer un travail supplémentaire pour les bots.

Corrigez ces problèmes en corrigeant les balises, en supprimant des pages ou en ajustant l’accès de Google.

8. Éliminer les chaînes de redirection et les redirections internes

À mesure que les sites Web évoluent, les redirections sont un sous-produit naturel, dirigeant les visiteurs d’une page vers une page plus récente ou plus pertinente. Mais bien qu’ils soient courants sur la plupart des sites, si vous les gérez mal, vous pourriez saboter par inadvertance votre propre indexation.

Il y a plusieurs erreurs que vous pouvez faire lors de la création de redirections, mais l’une des plus courantes est les chaînes de redirection. Ceux-ci se produisent lorsqu’il y a plus d’une redirection entre le lien cliqué et la destination. Google ne considère pas cela comme un signal positif.

Dans les cas les plus extrêmes, vous pouvez initier une boucle de redirection, dans laquelle une page redirige vers une autre page, qui redirige vers une autre page, et ainsi de suite, jusqu’à ce qu’elle revienne finalement à la toute première page. En d’autres termes, vous avez créé une boucle sans fin qui ne mène nulle part.

Vérifiez les redirections de votre site en utilisant Screaming Frog, Redirect-Checker.org ou un outil similaire.

9. Réparer les liens brisés

Dans le même ordre d’idées, les liens brisés peuvent faire des ravages sur la capacité d’exploration de votre site. Vous devriez vérifier régulièrement votre site pour vous assurer que vous n’avez pas de liens brisés, car cela nuira non seulement à vos résultats de référencement, mais frustrera les utilisateurs humains.

Il existe plusieurs façons de trouver des liens brisés sur votre site, notamment en évaluant manuellement chaque lien de votre site (en-tête, pied de page, navigation, dans le texte, etc.), ou vous pouvez utiliser Google Search Console, Analytics ou Screaming Frog pour trouver les erreurs 404.

Une fois que vous avez trouvé des liens brisés, vous avez trois options pour les réparer : les rediriger (voir la section ci-dessus pour les mises en garde), les mettre à jour ou les supprimer.

10. Indexer maintenant

IndexNow est un protocole relativement nouveau qui permet aux URL d’être soumises simultanément entre les moteurs de recherche via une API. Cela fonctionne comme une version suralimentée de la soumission d’un sitemap XML en alertant les moteurs de recherche des nouvelles URL et des modifications apportées à votre site Web.

Fondamentalement, ce qu’il fait, c’est fournir aux robots d’exploration une feuille de route vers votre site à l’avance. Ils entrent sur votre site avec les informations dont ils ont besoin, il n’est donc pas nécessaire de vérifier constamment le plan du site. Et contrairement aux sitemaps XML, il vous permet d’informer les moteurs de recherche sur les pages de code de statut non-200.

Sa mise en œuvre est simple et ne nécessite que de générer une clé API, de l’héberger dans votre répertoire ou à un autre emplacement et de soumettre vos URL au format recommandé.

Emballer

À présent, vous devriez avoir une bonne compréhension de l’indexabilité et de l’exploration de votre site Web. Vous devez également comprendre à quel point ces deux facteurs sont importants pour votre classement de recherche.

Si les araignées de Google peuvent explorer et indexer votre site, peu importe le nombre de mots-clés, de backlinks et de balises que vous utilisez – vous n’apparaîtrez pas dans les résultats de recherche.

Et c’est pourquoi il est essentiel de vérifier régulièrement votre site pour tout ce qui pourrait induire en erreur, tromper ou détourner les bots.

Alors, procurez-vous un bon ensemble d’outils et lancez-vous. Soyez diligent et attentif aux détails, et vous aurez bientôt des araignées Google qui envahiront votre site comme des araignées.

Davantage de ressources:

  • 11 trucs et astuces SEO pour améliorer l’indexation de la recherche
  • Comment les moteurs de recherche explorent et indexent : tout ce que vous devez savoir
  • Comment faire un audit SEO : la liste de contrôle ultime

Image en vedette : Roman Samborskyi/Shutterstock

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici