Outil SEO

Le deuxième index Mozscape de février est en ligne !

Nous poursuivons la tendance de deux versions d’index chaque mois en vous présentant la dernière version d’index Mozscape aujourd’hui – seulement 15 jours après notre dernière version du 12 février ! Le dernier index Mozscape a pris environ 11 jours pour être traité, avec une partie assez importante explorée début février. Les données de crawl couvrent environ 38 jours, donc les données de crawl les plus anciennes dateront de début janvier. Vous pouvez accéder à des données actualisées sur toutes nos applications – Open Site Explorer, Mozbar, campagnes PRO et l’API Mozscape.

Notre équipe de traitement de données volumineuses (Martin York, Douglas Vojir et Stephen Wood) a travaillé sur des améliorations vraiment intéressantes de notre base de code de traitement, réduisant ainsi le temps de traitement, ainsi que sur le début du développement d’une nouvelle fonctionnalité d’index Mozscape très attendue. :

  • L’index Mozscape est créé dans un pipeline de traitement par lots continu. Une quantité massive de données d’exploration est initialement téléchargée, qui est d’abord triée et organisée, puis les calculs et la magie sont appliqués. De temps en temps, les fichiers sont téléchargés dans une étape de point de contrôle ; juste au cas où quelque chose de catastrophique arriverait à l’index, nous pourrons revenir à une étape assez récente.

    Récemment, l’équipe de traitement du Big Data a creusé dans ce code de points de contrôle pour voir où ils pouvaient optimiser – et ils ont vraiment optimisé ! Le temps nécessaire pour vérifier les fichiers varie tout au long du pipeline, mais l’étape de point de contrôle la plus longue prenait environ 60 heures… Avec l’optimisation de Doug et Martin, cette étape prend désormais en moyenne 2,18 heures ! Sacré gain de temps !!

  • Les premières étapes du traitement sont consacrées à l’organisation de la répartition du travail sur l’ensemble du cluster de traitement Mozscape. Ces fichiers sont répartis en ce qu’on appelle des fragments, puis répartis sur l’ensemble du parc de machines. Parfois, ces fragments ne sont pas toujours complètement pleins ; cela signifie qu’une machine aura terminé son travail avant une autre machine. Martin a également revisité ce code pour voir quel type d’optimisation pourrait être appliqué. Avec l’aide de notre master data scientist, Matt Peters, Martin a pu améliorer la répartition du travail, économisant environ 25% de temps de traitement !

  • Une fonctionnalité que nous entendons demander assez souvent est l’inclusion de données d’exploration HTTPS dans l’index Mozscape. Bonne nouvelle : le développement de cette fonctionnalité a commencé et nous espérons que les données HTTPS seront incluses dans l’index Mozscape cet été !

Voici les métriques de ce dernier index :

  • 82 275 594 589 (82 milliards) URL

  • 9 097 532 641 (9,1 milliards) Sous-domaines

  • 148 991 416 (149 millions) domaines racine

  • 829 267 740 331 (829 milliards) Liens

  • Suivi vs non-suivi

    • 2,25 % de tous les liens trouvés n’ont pas été suivis

    • 56,08% des liens non suivis sont internes

    • 43,92% sont externes

  • Rel Canonical – 15,43 % de toutes les pages utilisent désormais une balise rel=canonical

  • La page moyenne contient 73 liens

    • 62,93 liens internes en moyenne

    • 10,33 liens externes en moyenne

Et les corrélations suivantes avec les résultats de recherche américains de Google :

  • Autorité de la page – 0,35

  • Autorité de domaine – 0.19

  • MozRank – 0,24

  • Liaison des domaines racine – 0.31

  • Nombre total de liens – 0,25

  • Liens externes – 0.29

Histogramme d'exploration pour l'index Mozscape du 27 février

Comme vous pouvez le voir à partir des mesures ci-dessus, il continue d’y avoir une augmentation des sous-domaines car nous avons découvert un petit nombre de domaines racine auxquels sont associés un nombre substantiel de sous-domaines.

Nous aimons toujours entendre vos pensées! Et rappelez-vous, si vous êtes curieux de savoir quand les prochaines mises à jour de Mozscape, vous pouvez consulter le calendrier ici. Nous maintenons également une liste des mises à jour d’index précédentes avec des mesures ici.

(Article traduit de moz.com)

Articles similaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bouton retour en haut de la page