Restreindre l’accès aux robots pour un meilleur référencement

Simon

il y a 4 ans

Laissés à eux-mêmes, les robots des moteurs de recherche percevront souvent les pages importantes comme indésirables, indexeront le contenu qui ne devrait pas servir de point d’entrée pour l’utilisateur, généreront du contenu en double, ainsi qu’une foule d’autres problèmes. Faites-vous tout ce que vous pouvez pour guider les robots à travers votre site Web et tirer le meilleur parti de chaque visite des robots des moteurs de recherche ?

C’est un peu comme une maison à l’épreuve des enfants. Nous utilisons des barrières de sécurité pour enfants pour bloquer l’accès à certaines pièces, ajouter des inserts aux prises électriques pour s’assurer que personne ne soit électrocuté et placer les objets dangereux hors de portée. En même temps, nous fournissons des articles éducatifs, divertissants et sûrs facilement accessibles. Vous n’ouvririez pas la porte d’entrée de votre maison non préparée à un tout-petit, puis sortiriez prendre un café et espérez le meilleur.

Considérez Googlebot comme un tout-petit (si vous avez besoin d’un visuel plus crédible, essayez un tout-petit vraiment riche et très bien connecté). Laissé errer dans les dangers sans guide, vous aurez probablement un gâchis et un potentiel manqué entre vos mains. Supprimez le choix d’accéder aux zones problématiques de votre site Web et ils sont plus susceptibles de se concentrer sur les options de bonne qualité à portée de main.

Restreindre l’accès aux déchets et aux dangers tout en rendant les choix de qualité facilement accessibles est un élément important et souvent négligé du référencement.

Heureusement, il existe un certain nombre d’outils qui nous permettent de tirer le meilleur parti de l’activité des robots et de les éviter tout problème sur nos sites Web. Examinons les quatre principales méthodes de restriction des robots ; la balise Meta Robots, les fichiers Robots.txt, la balise X-Robots et la balise canonique. Nous résumerons rapidement comment chaque méthode est mise en œuvre, couvrirons les avantages et les inconvénients de chacune et fournirons des exemples de la meilleure façon d’utiliser chacune.

ÉTIQUETTE CANONIQUE

La balise canonique est une balise méta au niveau de la page qui est placée dans l’en-tête HTML d’une page Web. Il indique aux moteurs de recherche quelle URL est la version canonique de la page affichée. Son but est de garder le contenu en double hors de l’index des moteurs de recherche tout en consolidant la force de vos pages en une seule page “canonique”.

Le code ressemble à ceci :

<link rel="canonical" href="http://example.com/quality-wrenches.htm"/>

Il y a un bon exemple de cette balise en action sur MyWedding. Ils ont utilisé cette balise pour s’occuper des paramètres de suivi importants pour l’équipe marketing. Essayez cette URL – http://www.mywedding.com/?utm_source=whatever-they-want-to-track. Faites un clic droit sur la page, puis affichez la source. Vous verrez l’entrée rel=”canonical” sur la page.

Avantages

Relativement simple à mettre en oeuvre. Votre groupe de développement peut passer à de plus gros poissons.
Peut être utilisé pour sourcer du contenu sur plusieurs domaines. Cela peut être une bonne solution si vous avez des accords de syndication en cours mais que vous ne voulez pas compromettre votre propre présence sur les moteurs de recherche.

Les inconvénients

Relativement facile à mettre en œuvre incorrectement (voir canonisation catastrophique)
La prise en charge des moteurs de recherche peut être inégale. La balise est un signal plus qu’une commande.
Ne corrige pas le problème principal.

Exemples d’utilisations

Il existe généralement d’autres moyens de canoniser le contenu, mais il s’agit parfois d’une solution solide compte tenu de toutes les variables.
Cindy Krum, une associée de Moz, recommande l’utilisation de balises canoniques si vous rencontrez une situation délicate et que la version de votre site mobile surclasse votre site traditionnel.
Si vous ne souhaitez pas suivre vos paramètres de référence avec un cookie, la balise canonique est une bonne alternative.

ROBOTS.TXT

Robots.txt permet un certain contrôle de l’accès des robots des moteurs de recherche à un site ; cependant, cela ne garantit pas qu’une page ne sera pas indexée. Il ne doit être utilisé qu’en cas de nécessité. Je recommande généralement d’utiliser la balise Meta “noindex” pour garder les pages hors de l’index à la place.

Avantages

Si facile qu’un singe pourrait le faire.
Excellent endroit pour signaler les fichiers XML Sitemap.

Les inconvénients

Si facile qu’un singe pourrait le faire (voir Serious Robots.txt Misuse)
Sert de bloc de jus de lien. Les moteurs de recherche ne sont pas autorisés à explorer le contenu de la page, de sorte que les liens (internes) ne sont pas suivis et ne transmettent pas la valeur qu’ils méritent.

Exemples d’utilisations

Je recommande d’utiliser uniquement le fichier robots.txt pour montrer que vous en avez un. Il ne devrait pas vraiment restreindre quoi que ce soit, mais sert à pointer vers les Sitemaps XML ou un fichier de répertoire XML Sitemap.
Consultez le fichier SEOmoz robots.txt. C’est amusant et utile.

ÉTIQUETTE META ROBOTS

La balise Meta robots crée des instructions au niveau de la page pour les robots des moteurs de recherche. La balise Meta robots doit être incluse dans la section head du document HTML. Voici quelques informations sur la façon dont la balise devrait apparaître dans votre code.

La balise Meta Robots est mon option préférée. En utilisant la balise ‘noindex’, vous gardez le contenu hors de l’index, mais les robots des moteurs de recherche suivront toujours les liens et passeront le lien love.

Avantages

L’utilisation de ‘noindex’ maintient une page hors de l’index de recherche mieux que d’autres options comme une entrée de fichier robots.txt.
Tant que vous n’utilisez pas la balise ‘nofollow’, le jus de lien peut passer. Ouf !
Affinez vos entrées dans les SERP en spécifiant NOSNIPPET, NOODP ou NODIR. (Tu es fan de moi maintenant !)

Les inconvénients

Beaucoup de gens assez intelligents utilisent ‘noindex, nofollow’ ensemble et manquent l’important morceau de flux de jus de lien. 🙁

Exemples d’utilisations

Imaginez que votre page de connexion soit la page la plus liée (et la plus puissante) de votre site Web. Vous ne le voulez pas dans l’index, mais vous ne voulez certainement pas l’ajouter au fichier robots.txt car il s’agit d’un bloc de jus de lien.
Pages de tri des résultats de recherche.
Versions paginées des pages.

X-ROBOTS-TAG

Depuis 2007, Google et d’autres moteurs de recherche ont pris en charge le X-Robots-Tag comme moyen d’informer les robots des préférences d’exploration et d’indexation dans l’en-tête HTTP utilisé pour servir le fichier. Le X-Robots-Tag est très utile pour contrôler l’indexation des types de médias non HTML tels que les documents PDF.

Avantages

Vous permet de contrôler l’indexation du contenu inhabituel comme les fichiers Excel, les PDF, les PPT et tout ce que vous avez.

Les inconvénients

Ce type de contenu étrange peut être gênant en premier lieu. Pourquoi ne pas publier une version HTML sur le web pour l’indexation et ce type de fichier secondaire pour le téléchargement, etc. ?

Exemples d’utilisations

Vous proposez des informations sur les produits sur votre site en HTML, mais votre service marketing souhaite également mettre à disposition la belle version PDF. Vous ajouteriez les X-Robots aux fichiers PDF.
Vous disposez d’un ensemble impressionnant de modèles Excel qui sont des appâts de liens. Si vous êtes dérangé par les fichiers Excel qui surclassent vos pages de destination HTML, vous pouvez ajouter noindex à votre balise x-robots dans l’en-tête HTTP.

Faisons demi-tour avec ce vaisseau

Qu’est-ce que c’était que le baby talk avec lequel tu as commencé, Lindsay ? Oh c’est vrai. Merci. Dans votre quête pour protéger votre site Web contre les robots, vous disposez d’un certain nombre d’outils sur votre disposition. Celles-ci diffèrent grandement de celles utilisées pour la sécurité des bébés, mais le résultat final est le même. Tout le monde (bébés et robots) reste en sécurité, sur la bonne voie, à l’abri des ennuis et concentré sur les choses les plus importantes qui feront la différence. Au lieu de barrières pour bébés et de protecteurs de prises électriques, vous avez la balise Meta Robots, les fichiers Robots.txt, la balise X-Robots et la balise canonique.

Dans mon ordre personnel de préférence, j’irais avec…

Balise Meta Robots
Balise canonique
X-Robots-Tag
Fichier robots.txt

À ton tour!

J’aimerais, j’aimerais, j’aimerais savoir comment vous utilisez chacun des protocoles de contrôle de robot ci-dessus pour un référencement efficace. Veuillez partager vos utilisations et votre expérience dans les commentaires et laisser la conversation se dérouler.

Bonne optimisation !

Photographies par Photoxpress

(Article traduit de moz.com)