Moteurs de recherche

Pourquoi se faire indexer par Google est si difficile

Chaque site Web dépend de Google dans une certaine mesure. C’est simple : vos pages sont indexées par Google, ce qui permet aux internautes de vous trouver. C’est ainsi que les choses devraient se passer.

Cependant, ce n’est pas toujours le cas. De nombreuses pages ne jamais être indexé par Google.

Si vous travaillez avec un site Web, en particulier un grand site Web, vous avez probablement remarqué que toutes les pages de votre site Web ne sont pas indexées et que de nombreuses pages attendent des semaines avant que Google ne les récupère.

Divers facteurs contribuent à ce problème, et beaucoup d’entre eux sont les mêmes facteurs que ceux mentionnés en ce qui concerne le classement – la qualité du contenu et les liens en sont deux exemples. Parfois, ces facteurs sont aussi très complexes et techniques. Les sites Web modernes qui s’appuient fortement sur les nouvelles technologies Web ont notoirement souffert de problèmes d’indexation dans le passé, et certains en souffrent encore.

De nombreux référenceurs croient encore que ce sont les choses très techniques qui empêchent Google d’indexer le contenu, mais c’est un mythe. S’il est vrai que Google pourrait ne pas indexer vos pages si vous n’envoyez pas de signaux techniques cohérents sur les pages que vous souhaitez indexer ou si votre budget d’exploration est insuffisant, il est tout aussi important que vous soyez cohérent avec la qualité de votre contenu.

La plupart des sites Web, grands ou petits, ont beaucoup de contenu qui devrait être indexé, mais qui ne l’est pas. Et tandis que des choses comme JavaScript rendent l’indexation plus compliquée, votre site Web peut souffrir de sérieux problèmes d’indexation même s’il est écrit en HTML pur. Dans cet article, abordons certains des problèmes les plus courants et comment les atténuer.

Raisons pour lesquelles Google n’indexe pas vos pages

À l’aide d’un outil de vérification d’indexation personnalisé, j’ai vérifié un large échantillon des magasins de commerce électronique les plus populaires aux États-Unis pour les problèmes d’indexation. J’ai découvert qu’en moyenne, 15 % de leurs pages produits indexables introuvable sur Google.

Ce résultat était extrêmement surprenant. Ce que j’avais besoin de savoir ensuite, c’était “pourquoi”: quelles sont les raisons les plus courantes pour lesquelles Google décide de ne pas indexer quelque chose qui devrait techniquement être indexé ?

Google Search Console signale plusieurs statuts pour les pages non indexées, comme “Exploré – actuellement non indexé” ou “Découvert – actuellement non indexé”. Bien que ces informations n’aident pas explicitement à résoudre le problème, c’est un bon endroit pour commencer les diagnostics.

Principaux problèmes d’indexation

Sur la base d’un large échantillon de sites Web que j’ai collectés, les problèmes d’indexation les plus courants signalés par Google Search Console sont :

1. “Crawlé – actuellement non indexé”

Dans ce cas, Google a visité une page mais ne l’a pas indexée.

D’après mon expérience, il s’agit généralement d’un problème de qualité du contenu. Compte tenu de l’essor actuel du commerce électronique, nous pouvons nous attendre à ce que Google devienne plus exigeant en matière de qualité. Donc, si vous remarquez que vos pages sont “explorées – actuellement non indexées”, assurez-vous que le contenu de ces pages a une valeur unique :

  • Utilisez des titres, des descriptions et des copies uniques sur toutes les pages indexables.

  • Évitez de copier les descriptions de produits à partir de sources externes.

  • Utilisez des balises canoniques pour consolider le contenu dupliqué.

  • Empêchez Google d’explorer ou d’indexer les sections de mauvaise qualité de votre site Web en utilisant le fichier robots.txt ou la balise noindex.

Si le sujet vous intéresse, je vous recommande de lire Crawled — Actuellement non indexé de Chris Long : Un guide sur l’état de la couverture.

2. “Découvert – actuellement non indexé”

C’est mon problème préféré avec lequel travailler, car il peut englober tout, des problèmes d’exploration à la qualité insuffisante du contenu. C’est un énorme problème, en particulier dans le cas des grands magasins de commerce électronique, et j’ai vu cela s’appliquer à des dizaines de millions d’URL sur un seul site Web.

URL découvertes pour un site qui ne sont pas actuellement indexées.

Google peut signaler que les pages de produits de commerce électronique sont “découvertes – actuellement non indexées” pour les raisons suivantes :

  • Un problème de crawl budget: il peut y avoir trop d’URL dans la file d’attente d’exploration et celles-ci peuvent être explorées et indexées ultérieurement.

  • Un problème de qualité: Google peut penser que certaines pages de ce domaine ne valent pas la peine d’être explorées et décider de ne pas les visiter en recherchant un modèle dans leur URL.

Faire face à ce problème nécessite une certaine expertise. Si vous découvrez que vos pages sont “découvertes – actuellement non indexées”, procédez comme suit :

  1. Identifiez s’il existe des modèles de pages entrant dans cette catégorie. Peut-être que le problème est lié à une catégorie spécifique de produits et que toute la catégorie n’est pas liée en interne ? Ou peut-être qu’une grande partie des pages de produits attendent dans la file d’attente pour être indexées ?

  2. Optimisez votre budget de crawl. Concentrez-vous sur la détection des pages de mauvaise qualité que Google passe beaucoup de temps à explorer. Les suspects habituels incluent les pages de catégories filtrées et les pages de recherche interne – ces pages peuvent facilement atteindre des dizaines de millions sur un site de commerce électronique typique. Si Googlebot peut les explorer librement, il n’a peut-être pas les ressources nécessaires pour accéder aux éléments précieux de votre site Web indexés dans Google.

Lors du webinaire “Rendering SEO”, Martin Splitt de Google nous a donné quelques conseils pour résoudre le problème Découverte non indexée. Consultez-le si vous voulez en savoir plus.

3. “Contenu dupliqué”

Ce problème est largement couvert par le Moz SEO Learning Center. Je tiens simplement à souligner ici que le contenu dupliqué peut être causé par diverses raisons, telles que :

  • Variations linguistiques (par exemple, langue anglaise au Royaume-Uni, aux États-Unis ou au Canada). Si vous avez plusieurs versions de la même page qui ciblent différents pays, certaines de ces pages peuvent finir par ne pas être indexées.

  • Contenu dupliqué utilisé par vos concurrents. Cela se produit souvent dans l’industrie du commerce électronique lorsque plusieurs sites Web utilisent la même description de produit fournie par le fabricant.

Outre l’utilisation de rel=canonical, les redirections 301 ou la création de contenu unique, je me concentrerais sur la fourniture d’une valeur unique aux utilisateurs. Arbres à croissance rapide.com en serait un exemple. Au lieu de descriptions ennuyeuses et de conseils sur la plantation et l’arrosage, le site Web vous permet de consulter une FAQ détaillée pour de nombreux produits.

En outre, vous pouvez facilement comparer des produits similaires.

Produits d'arbres comparés les uns aux autres avec leurs spécifications.

Pour de nombreux produits, il fournit une FAQ. De plus, chaque client peut poser une question détaillée sur une plante et obtenir la réponse de la communauté.

Client posant une question sur la plantation d'arbres sur une ligne de 400 m.

Comment vérifier la couverture de l’index de votre site Web

Vous pouvez facilement vérifier combien de pages de votre site Web ne sont pas indexées en ouvrant le Rapport de couverture d’index dans la console de recherche Google.

Rapport de couverture d'index dans Google Search Console.

La première chose que vous devriez regarder ici est le nombre de pages exclues. Essayez ensuite de trouver un modèle : quels types de pages ne sont pas indexées ?

Si vous possédez une boutique de commerce électronique, vous verrez très probablement des pages de produits non indexées. Bien que cela doive toujours être un signe d’avertissement, vous ne pouvez pas vous attendre à ce que toutes vos pages de produits soient indexées, en particulier avec un site Web volumineux. Par exemple, un grand magasin de commerce électronique est susceptible d’avoir des pages en double et des produits périmés ou en rupture de stock. Ces pages peuvent ne pas avoir la qualité qui les placerait en tête de la file d’attente d’indexation de Google (et c’est si Google décide d’explorer ces pages en premier lieu).

De plus, les grands sites Web de commerce électronique ont tendance à avoir des problèmes avec le budget de crawl. J’ai vu des cas de magasins de commerce électronique ayant plus d’un million de produits alors que 90% d’entre eux étaient classés comme “Découverts – actuellement non indexés”. Mais si vous voyez que des pages importantes sont exclues de l’index de Google, vous devriez être profondément inquiet.

Comment augmenter la probabilité que Google indexe vos pages

Chaque site Web est différent et peut souffrir de différents problèmes d’indexation. Cependant, voici quelques-unes des meilleures pratiques qui devraient aider vos pages à être indexées :

1. Évitez les signaux “Soft 404”

    Assurez-vous que vos pages ne contiennent rien qui puisse indiquer à tort un statut soft 404. Cela inclut tout ce qui va de l’utilisation de « Non trouvé » ou « Non disponible » dans la copie à la présence du numéro « 404 » dans l’URL.

    2. Utilisez les liens internes
    Les liens internes sont l’un des signaux clés pour Google qu’une page donnée est une partie importante du site Web et mérite d’être indexée. Ne laissez aucune page orpheline dans la structure de votre site Web et n’oubliez pas d’inclure toutes les pages indexables dans vos sitemaps.

    3. Mettre en place une bonne stratégie d’exploration
    Ne laissez pas Google ramper sur votre site Web. Si trop de ressources sont dépensées pour explorer les parties les moins précieuses de votre domaine, cela peut prendre trop de temps à Google pour arriver aux bonnes choses. L’analyse des journaux du serveur peut vous donner une image complète de ce que Googlebot explore et comment l’optimiser.

    4. Éliminer le contenu de mauvaise qualité et dupliqué
    Chaque grand site Web se retrouve finalement avec des pages qui ne devraient pas être indexées. Assurez-vous que ces pages ne se retrouvent pas dans vos sitemaps et utilisez la balise noindex et le fichier robots.txt le cas échéant. Si vous laissez Google passer trop de temps dans les pires parties de votre site, cela pourrait sous-estimer la qualité globale de votre domaine.

    5. Envoyez des signaux SEO cohérents.
    Un exemple courant d’envoi de signaux SEO incohérents à Google consiste à modifier les balises canoniques avec JavaScript. Comme Martin Splitt de Google l’a mentionné pendant les heures de bureau de JavaScript SEO, vous ne pouvez jamais être sûr de ce que Google fera si vous avez une balise canonique dans le code HTML source et une autre après le rendu de JavaScript.

      Le web devient trop gros

      Au cours des deux dernières années, Google a fait des pas de géant dans le traitement de JavaScript, facilitant ainsi le travail des référenceurs. De nos jours, il est moins courant de voir des sites Web alimentés par JavaScript qui ne sont pas indexés en raison de la pile technologique spécifique qu’ils utilisent.

      Mais pouvons-nous nous attendre à ce que la même chose se produise avec les problèmes d’indexation qui ne sont pas liés à JavaScript ? Je ne pense pas.

      Internet est en croissance constante. Chaque jour, de nouveaux sites Web apparaissent et les sites Web existants se développent.

      Google peut-il relever ce défi ?

      Cette question revient de temps en temps. J’aime citer Google ici :

      “Google dispose d’un nombre limité de ressources, donc face à la quantité presque infinie de contenu disponible en ligne, Googlebot ne peut trouver et explorer qu’un pourcentage de ce contenu. Ensuite, du contenu que nous avons exploré, nous ne pouvons en indexer qu’une partie. »

      En d’autres termes, Google ne peut visiter qu’une partie de toutes les pages du Web et indexer une partie encore plus petite. Et même si votre site Web est incroyable, vous devez garder cela à l’esprit.

      Google ne visitera probablement pas toutes les pages de votre site Web, même s’il est relativement petit. Votre travail consiste à vous assurer que Google peut découvrir et indexer les pages qui sont essentielles pour votre entreprise.

      (Article traduit de moz.com)

      Articles similaires

      Laisser un commentaire

      Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

      Bouton retour en haut de la page
      Index