L’indexation sémantique latente (LSI) est une méthode d’indexation et de recherche d’informations utilisée pour identifier des modèles dans les relations entre les termes et les concepts.

Avec LSI, une technique mathématique est utilisée pour trouver sémantiquement termes apparentés dans une collection de texte (un indice) où ces relations pourraient autrement être cachées (ou latent).

Et dans ce contexte, cela semble être très important pour le référencement.

Droit?

Après tout, Google est un énorme index d’informations, et nous entendons toutes sortes de choses sur la recherche sémantique et l’importance de la pertinence dans l’algorithme de classement de la recherche.

Si vous avez entendu des rumeurs sur l’indexation sémantique latente dans le référencement ou si on vous a conseillé d’utiliser des mots-clés LSI, vous n’êtes pas seul.

Mais LSI vous aidera-t-il réellement à améliorer votre classement dans les recherches ? Nous allons jeter un coup d’oeil.

L’affirmation : l’indexation sémantique latente comme facteur de classement

L’affirmation est simple : l’optimisation du contenu Web à l’aide de mots-clés LSI aide Google à mieux le comprendre et vous serez récompensé par un meilleur classement.

Backlinko définit les mots-clés LSI de cette manière :

« Les mots clés LSI (Latent Semantic Indexing) sont des termes conceptuellement liés que les moteurs de recherche utilisent pour comprendre en profondeur le contenu d’une page Web. »

En utilisant des termes liés au contexte, vous pouvez approfondir la compréhension de Google de votre contenu. Ou alors l’histoire va.

Cette ressource poursuit en présentant des arguments assez convaincants pour les mots clés LSI :

  • « Google s’appuie sur les mots-clés LSI pour comprendre le contenut à un niveau aussi profond.
  • « Les mots clés LSI ne sont PAS des synonymes. Au lieu de cela, ce sont des termes qui sont étroitement liés à votre mot clé cible. »
  • « Google n’affiche PAS UNIQUEMENT les termes en gras qui correspondent exactement ce que vous venez de rechercher (dans les résultats de recherche). Ils ont également des mots et des phrases en gras qui sont similaires. Inutile de dire que ce sont des mots-clés LSI que vous souhaitez saupoudrer dans votre contenu.

Cette pratique consistant à « saupoudrer » des termes étroitement liés à votre mot-clé cible aide-t-elle à améliorer votre classement via LSI ?

Les preuves du LSI comme facteur de classement

La pertinence est identifiée comme l’un des cinq facteurs clés qui aident Google à déterminer quel résultat est la meilleure réponse pour une requête donnée.

Comme Google l’explique dans sa ressource How Search Works :

« Pour renvoyer des résultats pertinents pour votre requête, nous devons d’abord établir quelles informations vous recherchez, l’intention derrière votre requête. »

Une fois l’intention établie :

« … les algorithmes analysent le contenu des pages Web pour évaluer si la page contient des informations susceptibles d’être pertinentes par rapport à ce que vous recherchez. »

Google poursuit en expliquant que le « signal le plus élémentaire » de pertinence est que les mots-clés utilisés dans la requête de recherche apparaissent sur la page. Cela a du sens – si vous n’utilisez pas les mots-clés recherchés par le chercheur, comment Google pourrait-il dire que vous êtes la meilleure réponse ?

Maintenant, c’est là que certains pensent que LSI entre en jeu.

Si l’utilisation de mots-clés est un signal de pertinence, l’utilisation juste les bons mots clés doit être un signal plus fort.

Il existe des outils spécialement conçus pour vous aider à trouver ces mots clés LSI, et les partisans de cette tactique recommandent d’utiliser toutes sortes d’autres tactiques de recherche de mots clés pour les identifier également.

Les preuves contre le LSI comme facteur de classement

John Mueller de Google a été très clair à ce sujet :

« … nous n’avons aucune notion des mots-clés LSI. C’est donc quelque chose que vous pouvez complètement ignorer.

Il y a un scepticisme sain dans le référencement que Google peut dire des choses pour nous égarer afin de protéger l’intégrité de l’algorithme. Alors creusons ici.

Tout d’abord, il est important de comprendre ce qu’est le LSI et d’où il vient.

La structure sémantique latente est apparue comme une méthodologie pour récupérer des objets textuels à partir de fichiers stockés dans un système informatique à la fin des années 1980. En tant que tel, il s’agit d’un exemple de l’un des premiers concepts de récupération d’informations (IR) disponibles pour les programmeurs.

À mesure que la capacité de stockage informatique s’améliorait et que les ensembles de données disponibles électroniquement augmentaient en taille, il devenait plus difficile de localiser exactement ce que l’on cherchait dans cette collection.

Les chercheurs ont décrit le problème qu’ils tentaient de résoudre dans une demande de brevet déposée le 15 septembre 1988 :

« La plupart des systèmes exigent toujours qu’un utilisateur ou un fournisseur d’informations spécifie des relations et des liens explicites entre des objets de données ou des objets de texte, ce qui rend les systèmes fastidieux à utiliser ou à appliquer à des fichiers d’informations informatiques volumineux et hétérogènes dont le contenu peut ne pas être familier à l’utilisateur. ”

La correspondance des mots-clés était utilisée dans la RI à l’époque, mais ses limites étaient évidentes bien avant l’arrivée de Google.

Trop souvent, les mots qu’une personne utilisait pour rechercher les informations recherchées ne correspondaient pas exactement aux mots utilisés dans les informations indexées.

Il y a deux raisons à cela :

  • Synonymie: la diversité des mots utilisés pour décrire un seul objet ou une seule idée fait que des résultats pertinents sont manqués.
  • Polysémie: les différentes significations d’un même mot entraînent la récupération de résultats non pertinents.

Ce sont toujours des problèmes aujourd’hui, et vous pouvez imaginer à quel point c’est un énorme casse-tête pour Google.

Cependant, les méthodologies et la technologie utilisées par Google pour résoudre la pertinence ont depuis longtemps évolué depuis LSI.

Ce que LSI a fait, c’est créer automatiquement un « espace sémantique » pour la recherche d’informations.

Comme l’explique le brevet, LSI a traité ce manque de fiabilité des données d’association comme un problème statistique.

Sans trop entrer dans les détails, ces chercheurs croyaient essentiellement qu’il existait une structure sémantique latente sous-jacente cachée qu’ils pouvaient démêler des données d’utilisation des mots.

Cela révélerait le sens latent et permettrait au système de ramener des résultats plus pertinents – et seulement les résultats les plus pertinents, même s’il n’y a pas de correspondance exacte des mots clés.

Voici à quoi ressemble réellement ce processus LSI :

Organigramme du processus LSI

Et voici la chose la plus importante que vous devriez noter à propos de l’illustration ci-dessus de cette méthodologie de la demande de brevet : il y a deux processus distincts qui se produisent.

Tout d’abord, la collection ou l’index subit une analyse sémantique latente.

Deuxièmement, la requête est analysée et l’index déjà traité est ensuite recherché pour les similitudes.

Et c’est là que réside le problème fondamental avec LSI en tant que signal de classement de recherche Google.

L’index de Google est massif à des centaines de milliards de pages, et il ne cesse de croître.

Chaque fois qu’un utilisateur saisit une requête, Google trie son index en une fraction de seconde pour trouver la meilleure réponse.

L’utilisation de la méthodologie ci-dessus dans l’algorithme nécessiterait que Google :

  1. Recréez cet espace sémantique en utilisant LSA sur l’ensemble de son index.
  2. Analyser le sens sémantique de la requête.
  3. Trouver toutes les similitudes entre le sens sémantique de la requête et des documents dans l’espace sémantique créé à partir de l’analyse de l’index complet.
  4. Trier et classer ces résultats.

C’est une simplification grossière, mais le fait est que ce n’est pas un processus évolutif.

Ce serait super utile pour les petites collections d’informations. Il était utile pour faire apparaître des rapports pertinents dans les archives informatisées de documentation technique d’une entreprise, par exemple.

La demande de brevet illustre le fonctionnement de LSI à l’aide d’un ensemble de neuf documents. C’est ce qu’il a été conçu pour faire. LSI est primitif en termes de recherche d’informations informatisée.

L’indexation sémantique latente comme facteur de classement : notre verdict

Indexation sémantique latente (LSI) : est-ce un facteur de classement Google ?

Alors que les principes sous-jacents d’élimination du bruit en déterminant la pertinence sémantique ont sûrement informé les développements dans le classement de recherche depuis que LSA/LSI a été breveté, LSI lui-même n’a aucune application utile dans le référencement aujourd’hui.

Cela n’a pas été complètement exclu, mais rien ne prouve que Google ait déjà utilisé le LSI pour classer les résultats. Et Google n’utilise certainement pas les mots-clés LSI ou LSI aujourd’hui pour classer les résultats de recherche.

Ceux qui recommandent d’utiliser des mots clés LSI s’accrochent à un concept qu’ils ne comprennent pas tout à fait dans le but d’expliquer pourquoi la manière dont les mots sont liés (ou non) est importante dans le référencement.

La pertinence et l’intention sont des considérations fondamentales dans l’algorithme de classement de recherche de Google.

Ce sont deux des grandes questions qu’ils essaient de résoudre pour trouver la meilleure réponse à n’importe quelle requête.

La synonymie et la polysémie restent des enjeux majeurs.

La sémantique, c’est-à-dire notre compréhension des différentes significations des mots et de leur relation, est essentielle pour produire des résultats de recherche plus pertinents.

Mais LSI n’a rien à voir avec ça.


Image en vedette : Paulo Bobita/Journal des moteurs de recherche

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici