Moteurs de recherche

4 leçons d’une année de données MozCast

Nous savons tous qu’au cours de la dernière année, il y a eu de grandes mises à jour des algorithmes de Google, et nous avons ressenti ce que c’était que d’être au milieu de ces mises à jour. Je voulais prendre du recul et analyser les effets cumulés des mises à jour de Google. Pour ce faire, j’ai posé quatre questions et analysé une année de données MozCast pour trouver les réponses.

En repensant à l’année dernière – ou plus précisément aux 15 derniers mois jusqu’au 1er septembre 2013 – j’avais pour objectif de répondre à quatre questions qui me paraissaient vraiment importantes pour les référenceurs et les spécialistes du marketing entrant. Ces questions étaient :

  • Y a-t-il vraiment plus de jours turbulents dans les SERP que ce à quoi nous devrions nous attendre, ou tous les référenceurs sont-ils britanniques dans l’âme et aiment-ils se plaindre de la météo ?
  • S’il fait plus chaud aujourd’hui qu’hier, va-t-il se refroidir demain ou devenir encore plus chaud ?
  • On a parfois l’impression que de grands domaines prennent le contrôle des SERP ; c’est vrai ou c’est juste moi qui suis paranoïaque ?
  • Quels effets la lutte anti-spam de Google a-t-elle eu sur les correspondances de domaine exactes et partielles dans les SERP ?

Avant de commencer

Tout d’abord, merci au Dr Pete de m’avoir envoyé l’ensemble de données et d’avoir vérifié ce message avant de le soumettre pour s’assurer que tous les calculs avaient un sens.

Deuxièmement, comme cela a été discuté à plusieurs reprises sur Moz, il y a une grande mise en garde chaque fois que nous parlons de statistiques : la corrélation n’implique pas la causalité. Il est important de ne pas désosser une cause à partir d’un effet et d’embrouiller les choses. De plus, le Dr Pete avait une grosse mise en garde à propos de cet ensemble de données particulier :

“Un avertissement majeur : je ne corrige pas toujours les données de métriques des 90 derniers jours, il y a donc parfois des problèmes avec ces données sur le passé. Notamment, il y avait un problème avec la façon dont nous avons compté les résultats de YouTube en novembre/décembre, donc certaines métriques comme “Big 10” et la diversité étaient détraquées pendant ces mois. Dans le cas des températures, nous corrigeons activement les mauvaises données, mais nous n’avons pas détecté ce problème assez tôt…

Tout cela pour dire que je ne peux pas réellement vérifier qu’une donnée donnée du passé est complètement exacte, en dehors des températures (et quelques jours ont été ajustés). Alors, soyez prudent.”

Donc, avec cet avertissement, examinons les données et voyons si nous pouvons commencer à répondre à ces questions.

Une analyse: MozCast nous donne tout de suite une métrique pour la turbulence : la température. Cela en fait l’une des questions les plus faciles à répondre. Tout ce que nous avons à faire est de prendre la moyenne de la température, l’écart type, le biais (pour voir si le graphique est symétrique ou non) et le kurtosis (pour voir à quel point les queues de la courbe sont “grasses”). Faites cela, et nous obtenons ce qui suit :

Moyenne

68.10°F

Écart-type

10.68°F

Fausser

1.31

Aplatissement

2,60

Qu’est-ce que tout cela signifie? Bien:

  • Une journée normale devrait être plutôt douce (pour les Britanniques, 68 °F équivaut à 20 °C). L’écart-type nous indique que 90 % de tous les jours devraient se situer entre 46 °F et 90 °F (8 °C et 32 °C), ce qui est une plage bien tempérée.
  • Cependant, le biais positif signifie qu’il y a plus de jours du côté chaud que du côté froid de 68 ° F.
  • En plus de cela, le kurtosis positif signifie que nous vivons en fait plus de jours au-dessus de 90 ° F que ce à quoi nous nous attendions.

Vous pouvez voir tout cela dans le graphique ci-dessous, avec sa grosse et grosse queue à droite de la moyenne.

Graphique montrant la fréquence des températures enregistrées (colonnes) et à quoi ressemblerait une distribution normale des températures (ligne).

Comme vous pouvez le voir sur le graphique, il y a certainement eu plus de jours chauds que prévu et plus de jours de chaleur extrême. En fait, alors que la distribution normale nous dit que nous devrions voir des températures supérieures à 100°F (38°C) environ une fois par an, nous en avons en fait vu 14. C’est deux semaines complètes de l’année! La plupart d’entre eux étaient en juin de cette année (les 10, 14, 18, 19, 26, 28, 29 pour être précis, coïncidant avec la mise à jour de plusieurs semaines sur laquelle le Dr Pete a écrit)

Et il semble que nous l’ayons eu particulièrement mal au cours des derniers mois. Si nous prenons des données jusqu’à la fin du mois de mai, la moyenne n’est que de 66 ° F (19 ° C), de sorte que la température moyenne au cours des trois derniers mois a en fait été de 73 ° F (23 ° C).

Réponse: La réponse courte à la question est “assez turbulente, surtout récemment”. Les températures élevées de cet été indiquent beaucoup de turbulences, tandis que la grosse queue sur le graphique des températures nous indique qu’il a régulièrement été plus chaud que prévu au cours des 15 derniers mois. Nous avons eu un certain nombre de jours de turbulences inhabituellement élevées, et il n’y a pas de jours vraiment calmes. Donc, il semble que les référenceurs ne se soient pas contentés de se plaindre des SERP imprévisibles auxquels ils ont dû faire face, ils ont eu raison.

Une analyse: La véritable valeur de la connaissance du temps est de pouvoir faire des prévisions avec cette connaissance. Donc, si les émissions MozCast d’aujourd’hui sont plus chaudes qu’hier, il serait utile de savoir s’il fera encore plus chaud demain ou plus froid.

Pour le savoir, je me suis tourné vers quelque chose appelé l’exposant de Hurst, H. Si vous voulez l’explication complète, qui implique des autocorrélations, des plages rééchelonnées et des séries temporelles partielles, rendez-vous sur Wikipedia. Si ce n’est pas le cas, tout ce que vous devez savoir, c’est que :

  • Si H<0,5 alors les données sont anti-persistantes (une hausse aujourd'hui signifie qu'il y aura probablement une baisse demain)
  • Si H>0,5 les données sont persistantes (une augmentation est susceptible d’être suivie d’une autre augmentation)
  • Si H=0,5 alors les données d’aujourd’hui n’ont aucun effet sur celles de demain

Le plus proche H est à 0 ou 1 plus l’influence d’un seul jour existe à travers les données.

Une distribution normale – comme la courbe en cloche rouge dans le graphique ci-dessus – a un exposant de Hurst de H=0,5. Puisque nous connaissons la distribution des températures avec ses queues nettes maigres et grasses non normales, nous pouvons deviner que son exposant de Hurst ne sera probablement pas de 0,5. Alors, les données sont-elles persistantes ou anti-persistantes ?

Eh bien, à partir du 4e Septembre cette réponse est persistante : H=0,68. Mais si vous aviez demandé le 16e Juillet – juste après la mise à jour sur plusieurs semaines de Google mais avant le jour où le graphique des connaissances a explosé – la réponse aurait été “H = 0,48, donc ni l’un ni l’autre”: il semble que l’un des effets de cette mise à jour sur plusieurs semaines était de réduire le long terme prévisibilité des modifications des résultats de recherche. Mais en mai, avant cette mise à jour, la réponse aurait de nouveau été “H = 0,65, donc les données sont persistantes”.

Réponse: Avec les données actuelles, je suis assez confiant pour dire que si les derniers jours se sont régulièrement réchauffés, il est probable qu’ils se réchaufferont à nouveau demain. Si Google lance un autre changement majeur d’algorithme, nous devrons peut-être revoir cette conclusion. La bonne nouvelle est que la persistance apparente des changements de température devrait nous donner quelques jours d’avertissement de ce changement d’algo.

Une analyse: Nous avons tous ressenti à un moment donné que Wikipedia et About.com avaient pris le contrôle des SERP. Que nous n’allons jamais battre Target ou Tesco malgré le fait qu’ils ne semblent jamais produire de contenu intéressant. Encore une fois, MozCast nous fournit quelques métriques prêtes à l’emploi pour analyser si cela est vrai ou non : Big 10 et Domain Diversity.

Tout d’abord, la diversité des domaines. Le tracé de la diversité de domaine de chaque jour au cours des 15 derniers mois vous donne le graphique ci-dessous (j’ai pris une moyenne mobile sur cinq jours pour réduire le bruit et rendre les tendances plus claires).

Tendances de la diversité des domaines, montrant une nette baisse du nombre de domaines dans les SERP utilisés pour le MozCast.

Comme vous pouvez le voir, la diversité des domaines a beaucoup baissé. Il a chuté de 16 %, passant de 57 % en juin 2012 à 48 % en août 2013. Il y a eu quelques baisses importantes dans la diversité des domaines – 6e 29 mai 2012e septembre 2012, et 31St Janvier 2013 – mais cela semble vraiment être une tendance définitive, pas le résultat de quelques sauts.

Pendant ce temps, si nous traçons la proportion de SERPs repris par les Big 10, nous constatons une forte augmentation sur la même période, passant de 14,3 % à 15,4 %. C’est une augmentation de 8 %.

Tendances de la moyenne mobile sur cinq jours de la proportion de SERPs utilisés dans l’ensemble de données MozCast repris par les domaines quotidiens du Big 10.

Réponse: La diversité des domaines est presque certainement en baisse, et les grands domaines occupent au moins une partie de l’espace que ces petits domaines laissent derrière eux. Que ce soit une bonne ou une mauvaise chose dépend presque certainement de l’opinion personnelle : quelqu’un qui possède l’un des domaines qui ont disparu des listes dirait probablement que c’est une mauvaise chose, M. Cutts dirait probablement que beaucoup de domaines qui ont disparu étaient du spam ou plein de contenu léger, donc c’est une bonne chose. Quoi qu’il en soit, cela souligne l’importance de construire une marque.

Une analyse: Les domaines correspondants aux mots clés sont un sujet plutôt intéressant. En regardant uniquement les tendances, la proportion d’annonces avec des domaines correspondants exacts (EMD) et partiels (PMD) est certainement en baisse. Quelques mises à jour en particulier ont eu un effet : Une énorme secousse en décembre 2012 a eu un effet particulier et durable, éliminant 10 % des EMD et 10 % des PMD des listes ; Matt Cutts lui-même a annoncé la bosse en septembre 2012 ; et cette mise à jour de plusieurs semaines qui a provoqué les températures élevées en juin a également réduit l’influence des PMD.

Tendances des moyennes mobiles sur cinq jours de l’influence des domaines exacts et partiels correspondants (EMD et PMD) dans les SERP utilisées dans l’ensemble de données MozCast.

Sans surprise, il existe une forte corrélation (0,86) entre l’évolution de la proportion d’EMD et de PMD dans les SERP. Ce qui est plus intéressant, c’est qu’il existe aussi une corrélation (0,63) entre leurs volatilités sur 10 jours, l’écart type de toutes leurs valeurs sur les 10 derniers jours. Cela implique que lorsqu’une métrique voit un grand swing, il est probable que l’autre verra un grand swing dans la même direction – principalement vers le bas, selon le graphique. Cela confirme les déclarations de Google à propos de diverses mises à jour s’attaquant aux domaines de correspondance de mots clés de faible qualité.

Une autre chose assez intéressante qui est liée à notre question précédente est la très forte corrélation entre la proportion de PMD dans les SERP et la diversité des domaines. Il s’agit d’un énorme 0,94, ce qui signifie qu’un mouvement vers le haut ou vers le bas dans la diversité des domaines s’accompagne presque toujours d’un swing de la même manière pour la proportion d’espace SERP occupé par les PMD, et vice versa.

Tout cela semblerait indiquer que les domaines de correspondance de mots clés deviennent moins importants aux yeux des moteurs de recherche. Mais retenez vos chevaux pour tirer des conclusions : l’étude des facteurs de classement Moz de cette année nous indique que “dans nos données collectées début juin (avant la mise à jour du 25 juin), nous avons trouvé que les corrélations EMD étaient relativement élevées à 0,17… à peu près à égalité avec les valeur de notre étude de 2011”. Alors, comment la corrélation peut-elle rester la même alors que le nombre de résultats diminue ? Eh bien, j’aurais tendance à être d’accord avec l’hypothèse de Matt Peters dans ce post selon laquelle cela pourrait être dû au fait que “Google supprime les EMD de qualité inférieure”. Il y a aussi le fait que les correspondances de mots-clés ont tendance à avoir une certaine pertinence pour les recherches : si je recherche des pizzas et que je vois benspizzzas.com dans les listes, je suis assez susceptible de penser “ils ont l’air de faire des pizzas – je” Je vais les regarder”. Ainsi, les correspondances de domaine sont toujours pertinentes pour les requêtes de recherche, tant qu’elles sont prises en charge par un contenu pertinent.

Alors, comment la corrélation peut-elle rester la même mais le nombre de résultats chute ? Eh bien, le rapport sur les facteurs de classement examine le classement des sites une fois qu’ils ont déjà été classés. Si seuls quelques sites Web avec des EMD se classent mais qu’ils se classent très bien, la corrélation entre les classements et la correspondance de domaine peut être la même que si un certain nombre de sites Web se classent très bas dans la liste. Donc, si les EMD de qualité inférieure ont été retirés du classement – comme le spéculent le Dr Matt et le Dr Pete – mais que ceux qui restent se classent plus haut qu’auparavant, le coefficient de corrélation que nous mesurons sera le même aujourd’hui en 2011.

Réponse: Le nombre de correspondances exactes et partielles est certainement en baisse, mais les correspondances de domaine sont toujours pertinentes pour les requêtes de recherche, tant qu’elles sont prises en charge par un contenu pertinent. Nous connaissons cette pertinence parce que les marques mettent constamment leurs principaux services dans leurs noms : regardez SEOmoz (avant qu’il ne change), ou British Gas, ou HSBC (Hong Kong-Shanghai Banking Corporation). Les marques le font car cela signifie que leurs clients peuvent voir instantanément ce qu’ils font – et il en va de même pour les domaines.

Donc, si vous envisagez de créer un contenu utile et intéressant pour votre secteur, achetez un domaine avec un ou deux mots-clés. Vous pouvez même acheter le domaine correspondant exactement, même s’il ne correspond pas à votre marque (bien que cela puisse donner aux gens des problèmes de confiance, ce qui est une toute autre histoire). Mais si vous ne prévoyez pas de créer ce contenu, il est peu probable que l’achat d’un domaine correspondant à des mots clés vous aide, et vous pourriez même vous retrouver dans une aventure plus difficile à l’avenir que si vous vous en tenez à votre domaine de marque.

Ouf, c’était un long message. Alors quelles conclusions pouvons-nous tirer de tout cela ?

Eh bien, en bref:

  • Bien que la journée “moyenne” soit relativement calme, il y a plus de journées chaudes et orageuses que nous ne l’espérions
  • Les domaines correspondant aux mots clés, qu’ils soient exacts ou partiels, ont connu une énorme baisse d’influence au cours des 15 derniers mois – et si vous en possédez un, vous avez probablement vu de grosses baisses en peu de temps
  • Les SERP sont moins diversifiées qu’il y a un an, et les grandes marques ont étendu leur influence
  • Lorsque l’influence EMD/PMD diminue, la diversité SERP diminue également. Les deux pourraient-ils être liés ?
  • Si aujourd’hui est plus chaud qu’hier, il est probable que demain sera encore plus chaud

Que pensez-vous de l’année écoulée ? Cette analyse répond-elle à vos questions ou vous donne-t-elle envie d’en poser davantage ? Faites-le moi savoir dans les commentaires ci-dessous (si cela vous fait poser plus de questions, j’essaierai de creuser davantage et d’y répondre).

(Article traduit de moz.com)

Articles similaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bouton retour en haut de la page