Comment savoir si vos données sont exactes ? Une étude de cas utilisant le volume de recherche, le CTR et les classements

Simon

il y a 4 ans

Le Big Data et l’analytique ont été qualifiés de “prochaine innovation”, et ils peuvent certainement constituer un argument solide avec l’explosion de données facilement accessibles et de haute qualité disponibles aujourd’hui. Dans le monde du marketing entrant, nous avons accès aux backlinks et au texte d’ancrage, aux données de trafic et de flux de clics, au volume de recherche et au taux de clics (CTR), aux mesures des médias sociaux et bien d’autres. Il y a une valeur énorme dans ces données, si nous pouvons les débloquer.

Mais il y a un problème : les données du monde réel sont désordonnées et leur traitement peut être délicat. Comment savoir si nos données sont exactes ou si nous pouvons faire confiance à nos conclusions finales ? Si nous voulons utiliser ces données pour trouver une meilleure façon de faire du marketing, nous devons faire attention à l’exactitude.

Il n’y a pas de règles strictes en matière d’analyse de données. Il existe certaines pratiques exemplaires, mais même celles-ci peuvent devenir un peu troubles. La chose la plus importante à faire est de mettre votre casquette de détective et de plonger dans les données. Plus vous êtes familiarisé avec les données, plus il est facile de repérer quelque chose qui semble étrange. Plus que probablement, vos conclusions seront des problèmes de qualité qui doivent être améliorés.

Tout au long de cet article, nous utiliserons un ensemble de données de Google Webmaster Tools de références de recherche de mots clés comme étude de cas. Voici un extrait des données :

Nous mettons également tout notre code d’analyse de mots clés sur Github afin que vous puissiez exécuter notre analyse sur les données de votre propre site.

Le reste de cet article traite de six meilleures pratiques et suggestions pour garantir l’exactitude de vos données et de vos résultats. Prendre plaisir!

Contenu de la page

1. Séparez les données de l’analyse et rendez l’analyse reproductible

Il est recommandé de séparer les données et le processus qui analyse les données. Cela permet également de répéter l’analyse sur différentes données, soit par vous, soit par quelqu’un d’autre. Pour cette raison, la plupart des spécialistes des données n’utilisent pas Excel car il associe les données à l’analyse et rend difficile la répétition. Au lieu de cela, ils utilisent souvent un langage de script orienté statistique de haut niveau, comme R, Matlab/Octave, SAS, ou un langage à usage général comme Python.

Chez Moz, l’équipe de science des données utilise Python. Notre équipe Big Data l’utilise également beaucoup, ce qui facilite l’intégration de nos algorithmes à leur code de production.

2. Si possible, vérifiez vos données par rapport à une autre source

Dans de nombreux cas, cette étape peut être impossible, mais si vous le pouvez, c’est le meilleur moyen de vous assurer que vos données sont exactes. Dans le cas de Moz, nous avons pu vérifier les données de Google Webmaster Tools par rapport aux données de Google Analytics.

Certains éléments sur lesquels vous devez vous concentrer lorsque vous comparez des données incluent les décomptes agrégés totaux, les décomptes dans les sous-catégories ou les moyennes. Dans notre cas, nous avons vérifié à la fois le nombre total de visites de recherche et vérifié ponctuellement le nombre de visites pour quelques mots clés différents.

3. Descendez et salissez avec les données

C’est la partie amusante où nous pouvons jouer avec les données et faire une analyse exploratoire des données. Un bon point de départ consiste à examiner les données brutes pour voir ce qui ressort. Dans le cas des données Google Webmaster Tools, j’ai remarqué qu’elles ne donnent pas toujours le volume de recherche dans les cas de longue traîne avec seulement quelques recherches. Au lieu de cela, les données ont “<10" ou "-" au lieu de nombres qui devront être manipulés avec précaution car ils entraîneront des valeurs manquantes.

C’est aussi le moment de mettre votre casquette de détective et de commencer à poser des questions sur les données. Nous avons examiné certains mots-clés comme “seomoz” et “autorité de la page” qui sont marqués, et certains comme “rang de l’auteur” et “outil de test de schéma” qui ne le sont pas. Après avoir vérifié les données, je me suis demandé : “Hmmm, je me demande s’il existe une différence de taux de clics entre les mots clés de marque et sans marque, ou la position de recherche moyenne ?”

Habituellement, à ce stade, je suis excité pour commencer à répondre à des questions difficiles, mais j’essaie de résister à la tentation de sauter par-dessus bord jusqu’à ce que je fasse quelques vérifications supplémentaires. L’analyse univariée est un excellent outil pour vous aider à vous vérifier avant d’aller trop loin, d’autant plus que la plupart des logiciels offrent un moyen facile de le faire et qu’il produit souvent les premiers résultats intéressants. L’idée est d’obtenir une image de ce à quoi chaque variable “ressemble” en traçant un histogramme et en calculant des choses comme la moyenne.

Le graphique ci-dessus montre un exemple d’analyse univariée sur nos données. Dans chaque panneau, nous avons tracé la distribution de l’une des quatre variables de nos données : impressions, position moyenne, clics et CTR. Nous avons également inclus la moyenne de chaque distribution dans le titre. Immédiatement, nous pouvons voir quelques comparaisons intéressantes.

Tout d’abord, presque tous nos mots-clés sont “à longue traîne” avec moins de 100 recherches/mois. Cependant, une grande partie de notre trafic est également constituée de quelques mots-clés à fort volume (>1000 recherches/mois). La position moyenne est concentrée dans le top 10 comme prévu (puisque les résultats de la première page envoient très peu de trafic). C’est aussi une bonne vérification de nos données. Si nous avions vu une quantité importante de mots clés envoyant du trafic à des rangs inférieurs à la 10e place, nous devrions enquêter plus avant. Enfin, le CTR en bas à droite est intéressant. La plupart des mots clés ont un CTR inférieur à 40 %, mais nous avons quelques mots clés à volume élevé avec un CTR beaucoup plus élevé.

À présent, je me sens généralement assez à l’aise avec les données et je peux intervenir. À ce stade, j’ai découvert que poser des questions spécifiques est souvent le moyen le plus productif de répondre à des questions plus importantes, mais tout le monde travaille différemment, vous devrez donc Trouve ce qui marche le mieux pour toi. Dans le cas des données de Google Webmaster Tools, je suis curieux de connaître l’impact des mots-clés de marque par rapport aux mots-clés sans marque.

Une façon d’examiner cela consiste à segmenter les données, puis à répéter l’analyse univariée pour chaque segment. Voici le tracé pour les impressions :

Nous pouvons voir que, dans l’ensemble, les mots-clés de marque ont un volume de recherche plus élevé que les mots sans marque (moyennes de 380 et 160, respectivement). Cela devient plus intéressant si nous regardons la position moyenne et le CTR :

Nous constatons une énorme différence dans la position moyenne et le CTR entre les mots avec et sans marque. La majeure partie de notre trafic provenant de mots de marque se situe dans les deux ou trois premières positions, les requêtes sans marque envoyant du trafic dans le top 10. Le CTR est également très différent avec quelques mots clés de marque ayant un CTR très élevé (60 % +).

On peut aussi se demander comment le CTR change avec la position de recherche. Nous nous attendons à ce que les mots-clés de rang inférieur aient un CTR inférieur. Pouvons-nous voir cela dans les données?

En effet, le CTR chute rapidement après le top cinq. Il y a une augmentation intéressante à la position 15, mais il s’agit d’une région pauvre en données, donc ce n’est peut-être pas un signal réel.

4. Testez unitairement votre code (là où cela a du sens)

Il s’agit d’une bonne pratique de développement logiciel, mais elle peut devenir un peu collante dans le monde de la science des données et nécessite souvent un jugement de votre part. Le test unitaire de tout est un excellent moyen de détecter de nombreux problèmes, mais cela vous ralentira vraiment. C’est une bonne idée d’utiliser du code de test unitaire qui, selon vous, sera réutilisé, a un objectif général en dehors du projet spécifique ou a une logique suffisamment compliquée pour qu’il soit facile de se tromper. Il n’est souvent pas utile de tester du code écrit rapidement pour vérifier une idée.

Dans le cas des données de Google Webmaster Tools, nous avons décidé de tester le processus qui lit les données et remplit les valeurs manquantes car la logique est quelque peu compliquée, mais nous n’avons pas testé notre code pour générer les tracés car il était relativement simple. Nous avons utilisé un petit ensemble de données synthétiques pour écrire les tests car il est facile à gérer. Découvrez quelques-uns de nos tests ici.

5. Documentez votre processus

Cette étape peut être ennuyeuse, mais vous vous remercierez quelques mois plus tard lorsque vous aurez besoin de la revoir. La documentation communique également vos pensées à d’autres qui peuvent vérifier et valider votre logique.

Dans notre cas, ce billet de blog documente notre processus et nous fournissons une documentation supplémentaire dans le fichier README du code.

6. Obtenez des commentaires des autres

L’examen par les pairs est l’une des pierres angulaires du monde universitaire, et la perspicacité des autres est presque toujours bénéfique pour améliorer votre analyse. N’hésitez pas à demander des commentaires à votre équipe; la plupart du temps, ils seront heureux de le donner !

Avez-vous d’autres conseils de test utiles ? Qu’est-ce qui a fonctionné pour vous et votre équipe ? J’aimerais entendre vos pensées dans les commentaires ci-dessous!

(Article traduit de moz.com)