Guide d’échantillonnage dans Google Analytics

L’échantillonnage est un processus utilisé dans les statistiques lorsqu’il est impossible ou peu pratique d’analyser toutes les données existantes. Au lieu de cela, un petit sous-ensemble sélectionné au hasard est utilisé pour garder les choses gérables. De nombreuses plates-formes d’analyse utilisent une sorte d’échantillonnage pour contrôler les temps de chargement des rapports, et il semble y avoir trois écoles de pensée en matière d’échantillonnage dans l’analyse. Il y a ceux qui en sont terrifiés, insistant sur des versions non échantillonnées de tout rapport. Ensuite, il y a ceux qui sont détendus à ce sujet, faisant confiance à la logique statistique. Et puis, enfin, il y a ceux qui sont inconscients.

Tous les trois se trompent.

L’échantillonnage n’est pas quelque chose à craindre, mais, dans Google Analytics en particulier, on ne peut pas toujours lui faire confiance. Pour cette raison, cela vaut vraiment la peine de comprendre quand cela se produit, comment cela affecte votre travail et comment cela peut être évité.

Quand ça arrive

Vous pouvez toujours savoir quand l’échantillonnage est utilisé, grâce à cette ligne en haut de chaque rapport :

Si le pourcentage est inférieur à 100 %, l’échantillonnage est en cours. Vous remarquerez ci-dessus que j’ai produit un rapport basé sur plus d’un demi-milliard de sessions sans aucun échantillonnage – l’échantillonnage ne concerne pas seulement le nombre de sessions impliquées dans un rapport. Il s’agit de la complexité de ce que vous demandez à la plateforme de rapporter. Comparez ce qui suit (excuses pour les petites captures d’écran ; je voulais m’assurer que tout le contexte était inclus, j’ai donc ajouté des légendes expliquant exactement ce que vous regardez) :

Aucun segment appliqué, rapport basé sur 100 % des sessions

Segment appliqué, rapport basé sur 0,17 % des sessions

Les deux sont identiques à l’exception de l’utilisation d’un segment dans le second cas. Google Analytics peut toujours fournir des données non échantillonnées pour les totaux de première ligne comme ce premier cas, mais les segments en particulier sont très susceptibles de déclencher un échantillonnage.

Le même niveau d’échantillonnage peut également être induit par l’utilisation d’une dimension secondaire :

Dimension secondaire appliquée, rapport basé sur 0,17 % des sessions

Quelques autres rapports spécialisés sont également sujets à ce niveau d’échantillonnage, notamment :

  • L’aperçu du commerce électronique
  • “Rapports de flux”

Rapport basé sur 0,17 % des sessions

Rapport basé sur <0,1 % des sessions

Pour résumer jusqu’à présent, l’échantillonnage peut se produire lorsque nous utilisons :

  • Une partie
  • Plus d’une dimension
  • Certains rapports détaillés (y compris la vue d’ensemble du commerce électronique et les campagnes AdWords)
  • Rapports “flux”

La précision de l’échantillonnage

L’échantillonnage, pour la plupart, est en fait assez fiable. Prenez les deux chiffres ci-dessous pour le trafic organique sur la même période, un tiré d’un petit échantillon de 0,17 % et un pris sans échantillonnage :

Rapport basé sur 0,17 % des sessions, signale 303 384 785 sessions via des données organiques

Rapport basé sur 100 % des sessions, rapporte 296 387 352 sessions via organique

La différence n’est que de 2,4 %, à partir d’un échantillon de 0,17 % de sessions réelles. Fait intéressant, lorsque j’ai répété cette comparaison sur une période plus courte (dernier trimestre), la taille de l’échantillon est passée à 71,3 %, mais la marge d’erreur était assez similaire à 2,3 %.

Il convient de noter, bien sûr, que plus vous approfondissez vos données, plus l’échantillon efficace devient petit. Si vous examinez un échantillon de 1 % des données et que vous remarquez une page de destination avec 100 sessions dans un rapport, cela est basé sur 1 visite, simplement parce que 1 correspond à 1 % de 100. Par exemple, prenez ce qui suit :

Rapport basé sur 45 sessions

Huit pour cent du trafic d’une année entière vers Distilled est beaucoup, mais 8% du trafic organique vers ma page de profil ne l’est pas, nous finissons donc par consulter un rapport (ci-dessus) basé sur 45 visites. Que cela vous concerne ou non dépend de la taille des changements que vous cherchez à détecter et de votre seuil pour des niveaux d’incertitude acceptables. Ces sujets seront familiers à ceux qui ont de l’expérience en CRO, mais je recommande cet outil pour commencer, et j’ai écrit sur certains des concepts clés ici.

Dans des cas extrêmes comme celui ci-dessus, cependant, votre intuition devrait suffire – ce clic de ma page /about/ vers /resources/…tup-guide/ prétend figurer dans 12 sessions, et est basé sur 8,11 % de séances. Comme 12 est à peu près 8% de 100, nous savons que cela est en fait basé sur 1 session. Pas quelque chose sur lequel vous voudriez fonder une stratégie.

Si l’un des problèmes ci-dessus vous préoccupe, j’ai quelques solutions plus loin dans ce post. Quoi qu’il en soit, il y a encore une chose que vous devez savoir. Découvrez la capture d’écran ci-dessous :

Rapport basé sur 100 % des sessions, mais “Tous les utilisateurs” ne représentent que 38,81 % “du total”

Il n’y a pas d’échantillonnage ici, mais le nombre affiché pour “Tous les utilisateurs” ne contient en fait que 38,8 % des sessions. Cela est dû à la combinaison de plus de 1 000 000 de lignes (comme indiqué par l’avertissement jaune “haute cardinalité” en haut du rapport) et à l’utilisation d’un segment. Cela est dû à l’effet de ces lignes regroupées dans “(autre)”, qui sont masquées lorsqu’un segment est actif. Indépendamment de tout échantillonnage, les nombres dans les rangées ci-dessous seront aussi précis qu’ils le seraient autrement (mis à part le fait que “(autre)” est manquant), mais les totaux des segments en haut sont d’utilisation limitée.

Donc, nous avons maintenant dépassé:

  • L’échantillonnage est généralement assez précis (+/- 2,5 % dans les exemples ci-dessus).
  • Lorsque vous examinez de petits nombres dans des rapports avec un niveau d’échantillonnage élevé, vous pouvez déterminer sur combien de rapports ils sont basés.
    • Par exemple, un échantillonnage de 1 % montrant 100 sessions signifie qu’une session était la base du nombre dans le rapport.
  • Vous devez garder un œil sur cet avertissement jaune de cardinalité élevée lorsque vous utilisez également des segments.

Que pouvez-vous faire à ce sujet

Il est souvent possible de recréer les données clés que vous souhaitez d’autres manières qui ne déclenchent pas d’échantillonnage. Cela signifie principalement qu’il faut éviter les segments et les dimensions secondaires. Par exemple, si nous voulions afficher le nombre de sessions pour les principales pages de destination organiques, nous pourrions normalement utiliser le rapport Landing Pages et appliquer un segment :

Rapport sur les pages de destination avec segment de trafic organique, basé sur 71,27 % des sessions

Dans le rapport ci-dessus, j’ai simplement appliqué un segment au rapport sur les pages de destination, ce qui a donné lieu à un échantillonnage. Cependant, je peux obtenir les mêmes données non échantillonnées – dans le cas ci-dessous, j’ai plutôt consulté le rapport “Canaux” et cliqué sur “Recherche organique” dans le rapport :

Canaux > Rapport de recherche organique, avec la dimension principale “Page de destination”, basé sur 100 % des sessions

Cela m’amène à un rapport où je ne regarde que les sessions de recherche organique, et je peux choisir une dimension principale de mon choix – dans ce cas, Landing Page. Il convient de noter, cependant, que cette astuce ne fonctionne pas de manière fiable – lorsque j’ai répliqué la même méthode à partir du rapport “Source / Support”, je me suis quand même retrouvé avec un échantillonnage.

Une astuce similaire s’applique aux segments personnalisés – si je voulais créer un segment pour ne me montrer que les visites de certaines pages de destination, je pourrais plutôt écrire un filtre avancé regex pour répliquer la fonctionnalité avec moins de chance d’échantillonnage :

Enfin, il existe quelques solutions plus extrêmes. Tout d’abord, vous pouvez créer des vues en double, puis appliquer des filtres au niveau de la vue pour répliquer la fonctionnalité de segment (de manière permanente pour cette vue) :

Deuxièmement, vous pouvez utiliser l’API et Google Sheets pour diviser un rapport en plages de dates plus petites, puis les agréger. Mon collègue Tian Wang a écrit sur cet outil ici.

Enfin, il y a GA Premium qui, pour un coût non négligeable, vous offre ce bouton :

Enfin, voici comment vous pouvez éviter l’échantillonnage :

  • Vous pouvez créer des rapports différemment pour éviter les segments ou les dimensions secondaires et réduire ainsi le risque de déclenchement de l’échantillonnage.
  • Vous pouvez créer des vues en double pour vous montrer des sous-ensembles de vos données que vous auriez autrement dû voir échantillonnés.
  • Vous pouvez utiliser l’API GA pour demander un grand nombre de petits rapports, puis les regrouper dans Google Sheets.
  • Pour les grandes entreprises, il y a toujours l’option de GA Premium pour recevoir des rapports non échantillonnés.

Discussion

J’espère que vous avez trouvé cet article utile. J’aimerais lire vos pensées et suggestions dans les commentaires ci-dessous.

(Article traduit de moz.com)
Quitter la version mobile