Mise à jour de septembre de Linkscape + commentaires

La semaine dernière, nous avons lancé une nouvelle mise à jour de Linkscape avec des données explorées et indexées en août. Plusieurs personnes ont remarqué des changements significatifs dans cet index, en particulier dans le nombre de liens et certaines métriques PA/DA. Je voulais prendre un peu de temps dans cet article pour parler des données de Linkscape, de notre processus, de certains des défis auxquels nous sommes confrontés et de ce que vous pouvez vous attendre à voir avec l’index au cours des prochains mois.

Avant de faire cela, voici les statistiques sur la dernière mise à jour :

  • 45 200 112 724 (45,2 milliards) URL
  • 425 981 698 (425 millions) Sous-domaines
  • 98 785 848 (98,7 millions) domaines racine
  • 373 046 145 690 (373 milliards) Liens
  • Suivi vs non-suivi
    • 2,22 % de tous les liens trouvés n’ont pas été suivis
    • 58,7% des liens nofollowed sont internes, 41,3% sont externes
  • Rel Canonical – 10,12 % de toutes les pages utilisent désormais une balise rel=canonical
  • La page moyenne contient 80,08 liens
    • 66,71 liens internes en moyenne
    • 13,37 liens externes en moyenne

Si vous avez prêté une attention particulière aux statistiques sur les mises à jour de l’index Linkscape, vous avez peut-être observé que depuis un an, la diversité des domaines (la quantité de domaines racine dans l’index) et la taille globale (le nombre d’URL uniques) apparaissent avoir une relation inverse. Lorsque nous avons des index plus grands, nous explorons moins de domaines et lorsque nous explorons plus de domaines, nous avons tendance à avoir moins de pages d’eux.

Voici une comparaison graphique à partir du mois d’août de l’année dernière :

Comme vous pouvez le constater, lorsque nous avons exploré un plus grand nombre de domaines uniques, nous avons exploré moins d’URL individuelles. Cela a longtemps été une frustration et un artefact de certains des systèmes que nous avons utilisés pour créer le service. En avril de cette année, nous avons commencé à tester un nouveau système d’exploration qui, nous l’espérons, nous permettra d’atteindre à la fois la profondeur et l’étendue, mais il y a beaucoup d’étapes complexes et difficiles à construire que nous devons d’abord prendre pour mettre à l’échelle le traitement, corriger bugs et rationaliser l’architecture de Linkscape.

Notre vice-présidente de l’ingénierie, Kate, en a récemment parlé dans un Q+A sur le sujet :

Salut tout le monde!

Je voulais juste ajouter une réponse rapide pour éclairer un peu plus la situation. L’année dernière, nous avons lancé un projet visant à améliorer considérablement notre index. La première partie de cela consistait à faire en sorte que notre robot d’exploration découvre davantage le Web – cela comprenait une exploration plus approfondie des domaines, la découverte de plus de liens plus rapidement (fraîcheur) et contient plus de liens dans l’ensemble.

Arrière plan

Pour comprendre les changements, il pourrait être utile d’expliquer comment notre crawler fonctionnait et comment nous avons changé.

Notre robot d’exploration avait l’habitude d’explorer le Web (pendant 3 à 4 semaines), puis nous calculions le graphique des liens et créions toutes les listes de liens et les mesures que vous voyez dans Open Site Explorer – c’est ce que nous appelions le traitement (et cela prendrait 2-3 semaines). Dans le cadre du traitement, nous sélectionnons les 10 milliards d’URL à explorer, puis nous commençons à les explorer.

Le problème avec ce système était que les données pouvaient dater de 7 à 8 semaines (temps de crawl + traitement + déploiement vers l’API et l’OSE). Ce n’était pas non plus récursif – ce qui signifie que nous ne découvrions de nouveaux liens que lorsque nous effectuions le traitement de cette analyse, donc cela pouvait nous prendre plusieurs mois avant de voir de nouveaux liens plus profonds dans les domaines.

Les changements

Nous avons modifié notre robot d’exploration afin que nous explorions tout le temps – nous explorons des sites tous les jours, semaines ou mois – en fonction de l’autorité. Au fur et à mesure que nous explorons ces sites, tous les nouveaux liens que nous trouvons sont ajoutés à l’un des compartiments et seront généralement explorés dans ce même index. C’est excitant parce que nous pouvons aller plus loin, découvrir plus de liens et produire un index de meilleure qualité. L’autre avantage est que, puisque nous explorons tout le temps, nous pouvons simplement prendre un instantané de cette analyse et exécuter le traitement – sans attendre la fin du dernier cycle de traitement – et cela signifie que nous pouvons mettre à jour l’index plus souvent.

Cependant, en juin, nous avons eu un problème avec les anciens crawlers, et nous avons dû déployer notre nouvelle version du crawl et de l’index avec le lancement d’OSE le 27 juillet. Ainsi, même si nos tests semblaient bons lorsque nous avons publié le nouvel indice et que les corrélations étaient plus élevées que l’ancien crawl, nous avons reçu des plaintes concernant des éléments qui n’allaient pas.

Les problèmes

Les fichiers binaires étaient dans l’index – Il n’y a normalement que des liens dans l’index, mais parce que le nouveau crawler est allé très loin dans certains domaines, nous avons commencé à découvrir toutes sortes de fichiers binaires qui, une fois analysés, produisaient beaucoup de liens étranges. Les domaines avaient donc tous ces liens provenant de sites qui n’étaient pas liés à eux. Nous avons résolu ce problème, et c’est le premier index avec le correctif.

Nous sommes allés trop loin sur les grands domaines – Il y a beaucoup de boutons pour activer les nouveaux robots d’exploration – du nombre de sites que nous explorons quotidiennement/hebdomadairement/mois au nombre de liens que nous conservons pour différents domaines. L’une des premières choses que nous avons remarquées avec ce nouveau crawl, c’est que nous avions moins de domaines dans notre index. Nous avons donc composé le nombre d’URL pouvant provenir d’un domaine – et ce nouvel index contient également ce changement.

Ce que nous faisons

Nous reconnaissons que vous dépendez tous de ces données. Et nous prenons la qualité de l’indice très au sérieux.

Nous avons déjà fait beaucoup d’autres changements, en augmentant la taille globale et en ajustant notre façon d’explorer. Cependant, comme il faut encore 2 à 4 semaines pour traiter un index, certains de ces changements ne seront pas encore visibles avant 2 à 4 semaines.

Nous travaillons également sur une autorité de page/autorité de domaine mise à jour et à corrélation plus élevée qui devrait être disponible dans un mois ou deux – mais qui pourrait également sauter un peu.

Ce que tu peux faire

Continuez à nous envoyer vos commentaires. Cela nous aide vraiment à comprendre où nous avons pu manquer lors de nos tests et ce que nous pouvons faire pour y remédier. Et merci encore pour votre patience – nous voulons vraiment vous offrir le meilleur Linkscape possible, et je vous assure que l’équipe travaille les nuits et les week-ends pour répondre à ces préoccupations. Et si quelqu’un a des questions, vous pouvez toujours m’envoyer un e-mail ou envoyer un e-mail à notre équipe d’assistance (qui a tendance à répondre aux e-mails beaucoup plus rapidement), car nous nous soucions tous beaucoup et voulons vraiment entendre vos commentaires.

Merci encore,
Kate

Vendredi soir, je suis resté tard au bureau avec un certain nombre de personnes de l’équipe Linkscape (photo ci-dessous lors de leur stand-up matinal):


(dans le sens des aiguilles d’une montre à partir de Martin au centre ; Alec, Phil, Brandon, Carin, Matt et Walt)

Il y a de gros problèmes difficiles autour de la construction d’un index Web, en particulier avec un budget comme le nôtre par rapport à ceux de Google ou Bing. Nous avons réfléchi à de nombreuses idées, mais le grand défi se résume à ceci : tout changement que nous apportons aujourd’hui ne sera pas observable avant au moins 5 à 6 semaines, ce qui rend le processus d’itération très lent. En génie logiciel, plus vos itérations sont rapides et plus vous connaissez rapidement l’impact de vos modifications, plus vous pouvez vous améliorer rapidement. Linkscape ne fournit pas de boucle de rétroaction rapide aujourd’hui, et nous savons que nous devons y remédier avant d’investir des tonnes d’efforts dans des améliorations qui “pourraient” avoir un impact positif.

Je peux cependant promettre que l’équipe d’ingénieurs qui travaille sur ce projet fait partie des personnes les plus intelligentes, les plus compétentes, les plus diligentes et les plus passionnées avec lesquelles j’ai jamais travaillé ou rencontré. Nous savons qu’il va y avoir encore 3 à 4 mois de dur labeur et d’index de qualité modérément améliorée avant d’atteindre les niveaux que nous voulons vraiment (notre objectif interne est de 100 milliards d’URL dans un index tout en maintenant la diversité des domaines au-dessus de 110 millions de domaines racine) .

Vous pouvez certainement nous aider en nous faisant part de vos commentaires lorsque vous pensez que nous avons manqué un site ou une page importante, lorsque les mesures semblent erronées ou lorsque quelque chose ne va pas dans OSE, la mozBar ou vos campagnes d’applications Web. Nous apprécions vraiment votre patience pendant que nous nous améliorons et votre soutien pour l’ensemble de données Linkscape. L’équipe peut vous dire que je prends nos luttes personnellement et durement, mais je suis incroyablement optimiste quant à ce que nous allons produire d’ici la fin de l’année.

À quoi s’attendre dans les 3 prochains mois

  • Nous aurons un nouvel index dans seulement 7 à 10 jours qui résout certains bogues (et contient également des pages plus fraîchement explorées)
  • Tailles d’index – recherchez entre 44 et 55 milliards d’URL, probablement pas beaucoup plus avant décembre, peut-être plus tard
  • Diversité de domaine – recherchez 100 mil+ à partir de l’index suivant, et se maintiendront probablement près de celui-ci ou au-dessus pour les futurs index
  • Les mises à jour de l’index peuvent dépasser 4 à 5 semaines alors que nous essayons d’apporter d’autres correctifs avant une nouvelle analyse ou un nouveau cycle de traitement (nous tiendrons le calendrier Linkscape à jour pour en faire un processus transparent)
  • Nous publions une nouvelle version de PA + DA qui sera probablement beaucoup mieux corrélée avec les classements Google (donnant une métrique supérieure pour juger du potentiel de classement des sites/pages). Cela pourrait cependant entraîner une hausse ou une baisse spectaculaire de certains sites + pages. Mon meilleur conseil ici est d’utiliser vos concurrents et les cohortes de l’industrie comme barre de comparaison plutôt que de simplement regarder les chiffres bruts au fil du temps (puisque la métrique elle-même change, un “40” en octobre peut ne pas signifier ce qu’un “40” signifie aujourd’hui).

Dans l’attente d’avoir de vos nouvelles – l’équipe d’ingénierie, ainsi que Kate et moi-même, prêterons une attention particulière aux commentaires sur le fil de discussion et à tout commentaire privé ou e-mail à help@seomoz.org sur ce sujet également. Merci encore – c’est un honneur d’avoir une si grande communauté de gens qui prêtent une attention particulière et tirent de la valeur de nos produits. Nous nous engageons à être à la hauteur des attentes élevées que vous avez pour nous.

(Article traduit de moz.com)
Quitter la version mobile