Logic, Meet Google – Explorer pour désindexer

Simonmars 31, 2021

0 151 3 minutes de lecture

Depuis la mise à jour de Panda, de plus en plus de personnes essaient de contrôler leur index Google et d’élaguer les pages de mauvaise qualité. Je crois fermement à la gestion agressive de votre propre indice, mais ce n’est pas toujours facile, et je vois apparaître quelques erreurs courantes. Une erreur est de penser que pour désindexer une page, il faut bloquer les chemins d’exploration. C’est logique, non ? Si vous ne voulez pas qu’une page soit indexée, pourquoi voudriez-vous qu’elle soit explorée ? Malheureusement, bien que cela semble logique, c’est aussi complètement faux. Prenons un exemple…

Contenu de la page

Scénario : Avis sur les produits

Imaginons que nous ayons un site de commerce électronique de taille décente avec 1 000 pages de produits uniques. Ces pages ressemblent à ceci :

1000 pages produits (schéma)

Chaque page de produit a sa propre URL, bien sûr, et ces URL sont structurées comme suit :

http://www.example.com/product/1
http://www.example.com/product/2
http://www.example.com/product/3
http://www.example.com/product/1000

Supposons maintenant que chacune de ces pages de produits renvoie à une page d’avis pour ce produit :

Pages de produits liées aux pages d'avis

Ces pages d’avis ont également leurs propres URL uniques (liées à l’ID du produit), comme ceci :

http://www.example.com/review/1
http://www.example.com/review/2
http://www.example.com/review/3
http://www.example.com/review/1000

Malheureusement, nous venons de produire 1 000 pages en double, car chaque page d’avis n’est en réalité qu’un formulaire et n’a pas de contenu unique. Ces pages d’avis n’ont aucune valeur de recherche et ne font que diluer notre index. Nous décidons donc qu’il est temps d’agir…

Le « correctif », partie 1

Nous voulons que ces pages disparaissent, nous décidons donc d’utiliser la balise META NOINDEX (Meta Robots). Puisque nous voulons vraiment, vraiment que les pages soient complètement publiées, nous décidons également de ne pas suivre les liens de révision. Notre première tentative de correctif finit par ressembler à ceci :

Pages de produits avec liens bloqués et pages d'avis NOINDEX

En surface, cela a du sens. Voici le problème, cependant – ces flèches rouges sont maintenant des chemins coupés, bloquant potentiellement les araignées. Si les araignées ne retournent jamais aux pages de révision, elles ne liront jamais le NOINDEX et elles ne désindexeront pas les pages. Dans le meilleur des cas, cela prendra beaucoup plus de temps (et la désindexation prend déjà trop de temps sur les gros sites).

Le correctif, partie 2

Au lieu de cela, laissons le chemin ouvert (laissons le lien être suivi). De cette façon, les crawlers continueront à visiter les pages, et les URL d’avis en double devraient progressivement disparaître :

Pages de produits avec liens suivis

Gardez à l’esprit que ce processus peut encore prendre un certain temps (des semaines, dans la plupart des cas). Surveillez votre index (avec l’opérateur “site :”) quotidiennement – vous recherchez une diminution progressive au fil du temps. Si cela se produit, vous êtes en bonne forme. Conseil de pro : ne prenez pas trop au sérieux le nombre de « sites : » d’une journée ; il peut parfois manquer de fiabilité. Regardez la tendance au fil du temps.

Sites nouveaux ou existants

Je pense qu’il est important de noter que ce problème ne s’applique qu’aux sites existants, où les URL en double ont déjà été indexées. Si vous lancez un nouveau site, il est parfaitement raisonnable de ne pas suivre les liens de révision. Vous pouvez également mettre en place les nofollows plus tard, après que les mauvaises URL ont été désindexées. La clé n’est pas de le faire tout de suite – donnez aux crawlers le temps de faire leur travail.

301, Rel-canonique, etc.

Bien que mon exemple ait utilisé nofollow et META NOINDEX, il s’applique à toute méthode de blocage d’un lien interne (y compris la suppression pure et simple) et à tout signal d’indexation basé sur la page ou sur l’en-tête. Cela inclut les redirections 301 et les balises canoniques (rel-canonical). Pour traiter ces signaux, Google doit explorer les pages. Si vous coupez le chemin avant que Google ne puisse réexplorer, ces signaux ne feront jamais leur travail.

Ne vous précipitez pas

Il est naturel de vouloir résoudre les problèmes rapidement (en particulier lorsque vous êtes confronté à une perte de trafic et de revenus), et les problèmes d’indexation peuvent être très frustrants, mais planifiez bien et donnez du temps au processus. Lorsque vous bloquez les chemins d’exploration avant que les signaux de désindexation ne soient traités ou que vous essayez de jeter tout sauf l’évier de la cuisine sur un problème (NOINDEX + 301 + canonique + ?), vous créez souvent plus de problèmes que vous n’en résolvez. Choisissez le meilleur outil pour le travail et donnez-lui le temps de travailler.

Mise à jour: Quelques commentateurs ont souligné que vous pouvez utiliser des sitemaps XML pour encourager Google à réexplorer les pages sans liens internes. C’est un bon point et j’ai franchement oublié de le mentionner. Bien que les liens internes soient encore plus puissants, un sitemap XML avec les URL non suivies (ou supprimées) peut aider à accélérer le processus. C’est particulièrement efficace lorsqu’il n’est pas possible de remettre les URL en place (une refonte totale, par exemple).

(Article traduit de moz.com)

Simonmars 31, 2021

0 151 3 minutes de lecture