Les fondamentaux du crawl pour le SEO –

Simonmars 10, 2023

0 144 10 minutes de lecture

Dans l’épisode de Whiteboard Friday de cette semaine, l’animateur Jes Scholz explore les fondements de l’exploration des moteurs de recherche. Elle vous montrera pourquoi aucun problème d’indexation ne signifie pas nécessairement aucun problème, et comment, en matière d’exploration, la qualité est plus importante que la quantité.

infographie décrivant les principes fondamentaux de l'exploration SEO

Cliquez sur l’image du tableau blanc ci-dessus pour ouvrir une version haute résolution dans un nouvel onglet !

Transcription vidéo

Bonjour, fans de Moz, et bienvenue dans une autre édition de Whiteboard Friday. Je m’appelle Jes Scholz, et aujourd’hui nous allons parler de tout ce qui rampe. Ce qu’il est important de comprendre, c’est que l’exploration est essentielle pour chaque site Web, car si votre contenu n’est pas exploré, vous n’avez aucune chance d’obtenir une réelle visibilité dans la recherche Google.

Donc, quand on y pense vraiment, l’exploration est fondamentale, et tout est basé sur les attentions quelque peu capricieuses de Googlebot. La plupart du temps, les gens disent que c’est vraiment facile à comprendre si vous avez un problème d’exploration. Vous vous connectez à Google Search Console, vous accédez au rapport d’exclusions et vous voyez que vous avez le statut découvert, actuellement non indexé.

Si vous le faites, vous avez un problème d’exploration, et si vous ne le faites pas, vous ne le faites pas. Dans une certaine mesure, c’est vrai, mais ce n’est pas si simple car ce que cela vous dit, c’est si vous avez un problème d’exploration avec votre nouveau contenu. Mais il ne s’agit pas seulement d’explorer votre nouveau contenu. Vous voulez également vous assurer que votre contenu est exploré car il est considérablement mis à jour, et ce n’est pas quelque chose que vous verrez jamais dans Google Search Console.

Mais disons que vous avez actualisé un article ou que vous avez effectué une mise à jour technique SEO importante, vous ne verrez les avantages de ces optimisations qu’après que Google aura exploré et traité la page. Ou d’un autre côté, si vous avez fait une grande optimisation technique et qu’elle n’a pas été explorée et que vous avez réellement nui à votre site, vous ne verrez pas le mal tant que Google n’aura pas exploré votre site.

Donc, essentiellement, vous ne pouvez pas échouer rapidement si Googlebot rampe lentement. Nous devons donc maintenant parler de la mesure de l’exploration de manière vraiment significative car, encore une fois, lorsque vous vous connectez à Google Search Console, vous accédez maintenant au rapport de statistiques d’exploration. Vous voyez le nombre total de crawls.

Je suis très en désaccord avec quiconque dit que vous devez maximiser la quantité de crawl, car le nombre total de crawls n’est absolument rien d’autre qu’une métrique de vanité. Si j’ai 10 fois plus de crawling, cela ne signifie pas nécessairement que j’ai 10 fois plus d’indexation de contenu qui m’importe.

Tout cela est en corrélation avec plus de poids sur mon serveur et cela vous coûte plus d’argent. Il ne s’agit donc pas de la quantité d’exploration. Il s’agit de la qualité de l’exploration. C’est ainsi que nous devons commencer à mesurer l’exploration, car ce que nous devons faire, c’est regarder le temps entre le moment où un élément de contenu est créé ou mis à jour et le temps qu’il faut à Googlebot pour explorer cet élément de contenu.

La différence de temps entre la création ou la mise à jour et ce premier crawl Googlebot, j’appelle cela l’efficacité du crawl. Ainsi, mesurer l’efficacité de l’exploration devrait être relativement simple. Vous allez dans votre base de données et vous exportez l’heure créée à ou l’heure mise à jour, puis vous allez dans vos fichiers journaux et vous obtenez la prochaine exploration Googlebot, et vous calculez le différentiel de temps.

Mais soyons réalistes. Accéder aux fichiers journaux et aux bases de données n’est pas vraiment la chose la plus facile à faire pour beaucoup d’entre nous. Vous pouvez donc avoir une procuration. Ce que vous pouvez faire, c’est aller voir la date et l’heure de la dernière modification de vos sitemaps XML pour les URL qui vous intéressent du point de vue du référencement, qui sont les seules qui devraient figurer dans vos sitemaps XML, et vous pouvez aller et regardez l’heure du dernier crawl à partir de l’API d’inspection d’URL.

Ce que j’aime vraiment dans l’API d’inspection d’URL, c’est si pour les URL que vous interrogez activement, vous pouvez également obtenir le statut d’indexation lorsqu’il change. Ainsi, avec ces informations, vous pouvez également commencer à calculer un score d’efficacité d’indexation.

Donc, en regardant quand vous avez fait cette republication ou quand vous avez fait la première publication, combien de temps cela prend-il pour que Google indexe ensuite cette page ? Parce que, vraiment, crawler sans indexation correspondante n’a pas vraiment de valeur. Ainsi, lorsque nous commençons à examiner cela et que nous avons calculé les temps réels, vous pouvez voir que cela prend quelques minutes, cela peut prendre des heures, cela peut prendre des jours, cela peut prendre des semaines entre le moment où vous créez ou mettez à jour une URL et le moment où Googlebot l’explore .

S’il s’agit d’une longue période, que pouvons-nous réellement faire à ce sujet ? Eh bien, les moteurs de recherche et leurs partenaires ont beaucoup parlé ces dernières années de la façon dont ils nous aident en tant que référenceurs à explorer le Web plus efficacement. Après tout, c’est dans leur meilleur intérêt. Du point de vue des moteurs de recherche, lorsqu’ils nous explorent plus efficacement, ils obtiennent notre précieux contenu plus rapidement et ils sont en mesure de le montrer à leur public, les chercheurs.

C’est aussi quelque chose où ils peuvent avoir une belle histoire parce que ramper pèse beaucoup sur nous et sur notre environnement. Il provoque beaucoup de gaz à effet de serre. Ainsi, en rendant l’exploration plus efficace, ils aident également la planète. C’est une autre raison pour laquelle vous devriez également vous en soucier. Ils ont donc consacré beaucoup d’efforts à la publication d’API.

Nous avons deux API. Nous avons l’API d’indexation Google et IndexNow. L’API d’indexation de Google, Google a déclaré à plusieurs reprises : “Vous ne pouvez en fait l’utiliser que si vous avez des offres d’emploi ou diffusez des données structurées sur votre site Web.” Beaucoup, beaucoup de gens ont testé cela, et beaucoup, beaucoup de gens ont prouvé que c’était faux.

Vous pouvez utiliser l’API d’indexation Google pour explorer tout type de contenu. Mais c’est là que cette idée de budget de crawl et de maximisation de la quantité de crawl s’avère problématique car bien que vous puissiez faire explorer ces URL avec l’API d’indexation de Google, si elles n’ont pas ces données structurées sur les pages, cela n’a aucun impact sur l’indexation.

Ainsi, tout ce poids d’exploration que vous mettez sur le serveur et tout ce temps que vous avez investi pour intégrer l’API d’indexation de Google est perdu. C’est un effort de référencement que vous auriez pu mettre ailleurs. Donc, pour faire court, l’API d’indexation Google, les offres d’emploi, les vidéos en direct, très bien.

Tout le reste ne vaut pas votre temps. Bien. Passons à IndexNow. Le plus grand défi avec IndexNow est que Google n’utilise pas cette API. De toute évidence, ils ont le leur. Cela ne signifie donc pas pour autant qu’il faut l’ignorer.

Bing l’utilise, Yandex l’utilise, et de nombreux outils de référencement, CRM et CDN l’utilisent également. Donc, généralement, si vous êtes sur l’une de ces plates-formes et que vous voyez, oh, il y a une API d’indexation, il y a de fortes chances qu’elle soit alimentée et qu’elle aille dans IndexNow. La bonne chose à propos de toutes ces intégrations est que cela peut être aussi simple que de simplement basculer sur un interrupteur et vous êtes intégré.

Cela peut sembler très tentant, très excitant, sympa, facile à gagner en SEO, mais attention, pour trois raisons. La première raison est votre public cible. Si vous activez simplement ce commutateur, vous informerez un moteur de recherche comme Yandex, le grand moteur de recherche russe, de toutes vos URL.

Maintenant, si votre site est basé en Russie, c’est une excellente chose à faire. Si votre site est basé ailleurs, ce n’est peut-être pas une très bonne chose à faire. Vous allez payer pour tout ce bot Yandex qui rampe sur votre serveur et qui n’atteint pas vraiment votre public cible. Notre travail en tant que référenceurs n’est pas de maximiser la quantité d’exploration et de poids sur le serveur.

Notre travail consiste à atteindre, engager et convertir nos publics cibles. Donc, si vos publics cibles n’utilisent pas Bing, ils n’utilisent pas Yandex, réfléchissez vraiment si c’est quelque chose qui convient à votre entreprise. La deuxième raison est la mise en œuvre, en particulier si vous utilisez un outil. Vous comptez sur cet outil pour avoir effectué une implémentation correcte avec l’API d’indexation.

Ainsi, par exemple, l’un des CDN qui a effectué cette intégration n’envoie pas d’événements lorsque quelque chose a été créé, mis à jour ou supprimé. Ils envoient plutôt des événements à chaque fois qu’une URL est demandée. Cela signifie qu’ils envoient à l’API IndexNow un grand nombre d’URL qui sont spécifiquement bloquées par robots.txt.

Ou peut-être envoient-ils à l’API d’indexation tout un tas d’URL qui ne sont pas pertinentes pour le référencement, que vous ne voulez pas que les moteurs de recherche connaissent, et qu’ils ne peuvent pas trouver via des liens d’exploration sur votre site Web, mais tout d’un soudain, parce que vous venez de l’activer, ils savent maintenant que ces URL existent, ils vont les indexer, et cela peut commencer à avoir un impact sur des choses comme votre autorité de domaine.

Cela va mettre ce poids inutile sur votre serveur. La dernière raison est que cela améliore réellement l’efficacité, et c’est quelque chose que vous devez tester pour votre propre site Web si vous pensez que cela convient à votre public cible. Mais d’après mes propres tests sur mes sites Web, ce que j’ai appris, c’est que lorsque j’active cette option et que je mesure l’impact avec les KPI qui comptent, l’efficacité de l’exploration, l’efficacité de l’indexation, cela ne m’a pas vraiment aidé à explorer des URL qui n’auraient pas été crawlé et indexé naturellement.

Ainsi, bien qu’il déclenche l’exploration, celle-ci se serait produite au même rythme, qu’IndexNow l’ait déclenchée ou non. Donc, tous ces efforts qui sont consacrés à l’intégration de cette API ou aux tests pour savoir si cela fonctionne réellement comme vous le souhaitez avec ces outils, encore une fois, étaient un coût d’opportunité gaspillé. Le dernier domaine où les moteurs de recherche nous aideront réellement à explorer est dans Google Search Console avec la soumission manuelle.

C’est en fait un outil qui est vraiment utile. Cela déclenchera généralement le crawl en une heure environ, et ce crawl a un impact positif sur l’influence dans la plupart des cas, pas tous, mais la plupart. Mais bien sûr, il y a un défi, et le défi en matière de soumission manuelle est que vous êtes limité à 10 URL en 24 heures.

Maintenant, ne négligez pas cela juste à cause de cette raison. Si vous avez 10 URL très précieuses et que vous avez du mal à les faire explorer, cela vaut vraiment la peine d’entrer et de faire cette soumission. Vous pouvez également écrire un script simple où vous pouvez simplement cliquer sur un bouton et il ira et soumettra 10 URL dans cette console de recherche chaque jour pour vous.

Mais il a ses limites. Donc, vraiment, les moteurs de recherche font de leur mieux, mais ils ne vont pas résoudre ce problème pour nous. Donc, nous devons vraiment nous aider. Quelles sont les trois choses que vous pouvez faire qui auront vraiment un impact significatif sur l’efficacité de votre crawl et de votre indexation ?

Le premier domaine sur lequel vous devriez concentrer votre attention est les plans de site XML, en vous assurant qu’ils sont optimisés. Lorsque je parle de plans de site XML optimisés, je parle de plans de site qui ont une date et heure de dernière modification, qui se met à jour aussi près que possible de l’heure de création ou de mise à jour dans la base de données. Ce que beaucoup de vos équipes de développement feront naturellement, parce que cela a du sens pour elles, c’est d’exécuter ceci avec une tâche cron, et elles exécuteront ce cron une fois par jour.

Alors peut-être que vous republiez votre article à 8h00 et qu’ils exécutent le travail cron à 23h00, et donc vous avez tout ce temps entre les deux où Google ou d’autres robots de moteurs de recherche ne savent pas vraiment que vous avez mis à jour ce contenu parce que vous ne leur avez pas dit avec le sitemap XML. Il est donc très important de rapprocher cet événement réel et l’événement signalé dans les sitemaps XML.

La deuxième chose que vous pouvez faire est vos liens internes. Je parle donc ici de tous vos liens internes pertinents pour le référencement. Passez en revue les liens de votre site. Avoir des fils d’Ariane sur vos appareils mobiles. Ce n’est pas seulement pour le bureau. Assurez-vous que vos filtres pertinents pour le référencement sont explorables. Assurez-vous d’avoir des liens de contenu connexes pour créer ces silos.

C’est quelque chose que vous devez entrer dans votre téléphone, désactiver votre JavaScript, puis vous assurer que vous pouvez réellement naviguer sur ces liens sans ce JavaScript, car si vous ne pouvez pas, Googlebot ne peut pas lors de la première vague d’indexation, et si Googlebot n’y parvient pas lors de la première vague d’indexation, cela aura un impact négatif sur vos scores d’efficacité d’indexation.

Ensuite, la dernière chose que vous voulez faire est de réduire le nombre de paramètres, en particulier les paramètres de suivi. Maintenant, je comprends très bien que vous avez besoin de quelque chose comme les paramètres de balise UTM pour que vous puissiez voir d’où vient votre trafic de messagerie, vous pouvez voir d’où vient votre trafic social, vous pouvez voir d’où vient votre trafic de notification push, mais il n’y a aucune raison pour que ces URL de suivi soient explorables par Googlebot.

Ils vont en fait vous nuire si Googlebot les explore, surtout si vous n’avez pas les bonnes directives d’indexation sur eux. Donc, la première chose que vous pouvez faire est de les rendre non explorables. Au lieu d’utiliser un point d’interrogation pour commencer votre chaîne de paramètres UTM, utilisez un hachage. Il suit toujours parfaitement dans Google Analytics, mais il n’est pas explorable pour Google ou tout autre moteur de recherche.

Si vous voulez vous débrouiller et continuer à en apprendre davantage sur l’exploration, veuillez me contacter sur Twitter. Mon pseudo est @jes_scholz. Et je vous souhaite une belle fin de journée.

Transcription vidéo par Speechpad.com

(Article traduit de moz.com)

Simonmars 10, 2023

0 144 10 minutes de lecture