Analytics

10 vérités sur les données – revisitées

Il y a sept ans, j’ai écrit sur le blog de mon ancien employeur (l’incroyable Reaktor) un article ironique intitulé 10 vérités sur les données.

En y repensant aujourd’hui, je suis toujours fier du travail accompli, mais je ne peux m’empêcher de penser que certaines vérités ont été gaspillées juste pour atteindre le nombre magique 10.

Alors, aujourd’hui, je veux revenir sur ces vérités et vous en proposer une version remaniée, cher lecteur.

Vous pourriez penser cyniquement que cet article n’est qu’un moyen pour moi d’éviter d’avoir le premier mois de l’histoire de ce blog sans nouveaux articles publiés. Et vous auriez en partie raison.

Vous pourriez aussi vous moquer cyniquement de la notion de «vérité» secouée de manière cavalière. Et vous auriez raison dans votre indignation. Cependant, la « vérité » a un ton plus agréable que « l’affirmation » ou la « réclamation ».

Dix vérités sur les données

En tous cas. Allons-y.

Vérité #1 : Les données sont passives.

Une des vérités OG.

Souvent, lors de la présentation des données, les gens utilisent une expression comme “Les données montrent que…” ou alors “Les données indiquent clairement que…”. Alors que je savoir ce que ces gens essaient de dire, c’est toujours une échappatoire sémantique.

Les Les données n’a pas faire rien. C’est un médium passif – exploité, disputé, manipulé, façonné et en forme de apporter la preuve ou la justification, voire un détournement, quel que soit le présentateur essaie d’énoncer.

Vérité #2 : Les données sont subjectives.

Une autre resucée de la première version de cet article, et une autre évidence.

Lorsque vous examinez une analyse, un graphique ou les lignes d’un tableau de données brutes, vous génèrent une interprétation unique de ce que vous voyez. Il n’y a aucune vérité objective dans la preuve devant vous.

Cela peut facilement se glisser dans un argument ontologique, et c’est très bien. Le fait est que qualité et analyse des données sont non fixé. Comme je l’ai écrit dans la pièce originale:

Un seul ensemble de données peut passer d’inutile à incroyablement perspicace sans qu’une seule donnée ne change de forme, de taille, de forme ou de fonction.

Vérité #3 : Les données sont illimitées.

Oh oui – et l’importance de cette vérité ne fait qu’augmenter à mesure que escalader de ce que nous pouvez et faire recueillir des augmentations d’ordres de grandeur avec chaque année qui passe de progrès technologique.

Il est impossible d’avoir toutes les données. Ce n’est pas seulement technologiquement irréalisable – c’est un philosophique impossibilité.

Il faut donc tracer une ligne. Et c’est tellement, très important de comprendre où cette ligne est tracée. Toi devoir comprenez les limites de votre ensemble de données lorsque vous le proposez comme preuve avec toute sorte de capacité de représentation. Toi devoir être en mesure de communiquer ces limites lorsque vous y êtes invité, ou même de manière proactive afin de maintenir des résultats justes et reproductibles.

Vérité #4 : Les données détestent les silos.

OK, j’ai utilisé le mot “abhorre” dans la première version de cette liste, mais ce n’était qu’un thésaurus qui parlait.

Pour une raison déroutante, de nombreuses entreprises traitent encore les données comme quelque chose qui peut être délégué à un titre de poste arbitraire (le analyste ou la ingénieur de données ou la scientifique) tandis que le reste de l’entreprise continue d’ignorer (et de négliger) la portée globale du pipeline de données.

Données est l’âme de l’organisation. Il ne se soucie pas des titres de poste. Il ne se soucie pas de votre organisation matricielle ou de vos hiérarchies plates ou de vos PTO illimités.

Vous devez connaître tous les coins et recoins de votre entreprise où les données sont collectées et traitées, et vous devez constamment évaluer et auditer ces processus.

Vérité #5 : Les données sont un processus.

Reprendre d’en haut – rappelez-vous que les données ne sont pas quelque chose que vous pouvez simplement résumer dans un projet ponctuel. D’un point de vue réglementaire, votre entreprise a la responsabilité d’être à l’écoute de l’impact en amont et en aval de tous les conflits de données qui se déroulent dans (et au-delà) de ses murs.

Mais il n’y a pas que ça. Votre entreprise génère des quantités absurdes de données à chaque seconde qui passe. Tu dois réagir à leurs fluctuations (et les choses sont en permanence en flux), et vous avez besoin d’un processus en place pour entretenir correctement les pipelines de données au sein de votre entreprise.

Vérité #6 : Les données peuvent être ignorées.

Ma vérité préférée.

Être « data-driven » est un mensonge ! Ne tombez pas dans le panneau ! Sur la base d’environ 20 ans d’expérience, la plupart des entreprises travaillent avec des données qui sont complètement mal comprises et où la qualité de base est tout simplement ridiculement médiocre (bien que, rappelez-vous la vérité n°2 !).

Si vous voulez que ce tas malodorant de uns et de zéros lecteur votre entreprise alors soyez mon invité. Fais-moi signe en plongeant dans l’abîme avec un axé sur les données sourire sur ton visage.

Si les données indiquent A, et qu’elles sont étayées par des expérimentations, des tests rigoureux et un ensemble de données aussi solide que vous ne rencontrerez jamais, mais votre intestin dit B, n’hésitez pas à aller avec ce dernier ! Toi pouvez ignorer les données. Il n’y a pas d’impératif catégorique qui vous oblige à faire ce que disent les données (bien que, souvenez-vous de la Vérité #1 !).

Cependant. Cependant. Toi devoir être en mesure de justifier cela afin que l’analyse de rentabilisation fasse autant ou plus de sens comme aller avec ce que l’analyse des données vous demande de faire.

Vous ne pouvez pas simplement lancer une crise de sifflet et ignorer les données parce que vous pensez que c’est votre droit divin de quitter le bord de la Terre juste pour prouver un point laborieux. Vous devez être en mesure d’élaborer une analyse de rentabilisation pour votre décision et vous devez être en mesure de convaincre vos collègues que le risque en vaut la peine.

Vérité #7 : Les outils ne peuvent pas dicter le fonctionnement de votre organisation.

Pour une raison quelconque, de nombreuses plateformes de données sont très prescriptif. Ils obligent l’entreprise à adopter des schémas qui pourraient ne pas être pertinents pour les analyses de rentabilisation de l’entreprise, mais qui ne servent qu’à faire en sorte que la plate-forme d’analyse assimile les informations de manière prévisible.

Les schémas monolithiques et génériques sont, en général, une mauvaise chose. Ils forcent le compagnie pour s’adapter à la plate-forme d’analyse plutôt que l’inverse.

Je me souviens avoir passé de nombreuses secondes à me demander comment je pouvais “tromper” Google Analytics pour digérer un Ajouter au panier événement sur un site Web qui n’avait pas de panier ; juste pour que je puisse utiliser la suite de rapports de commerce électronique. Ceci est un exercice personne ne devrait avoir à endurer.

Vérité #8 : Les vraies idées sont rares, et ce n’est pas grave.

J’ai l’impression que de nombreux analystes agissent comme John Nash dans Un bel espritoù ils examinent un ensemble de données et espèrent que des modèles apparaîtront, alimentant de nouvelles idées étonnantes qui transformeront complètement leur entreprise.

Eh bien, soit vous attendez longtemps, soit vous ne faites pas bien votre travail.

Il y a une belle théorie en biologie évolutive appelée l’équilibre ponctué. Il déclare que la majeure partie de l’évolution est en fait un progrès très lent et régulier. Cependant, des bouleversements parfois importants se produisent, introduisant des changements chaotiques et plus rapides dans le processus.

Je ne suis pas un biologiste de l’évolution, mais cette théorie a été adoptée en linguistique par RMW Dixon, qui est un genre que je connais beaucoup mieux.

Je pense que beaucoup d’analystes ne respectent pas cela, et ils essaient soit trouver ces bouleversements sans succès ou, pire, ils tentent de introduire avec de nouveaux outils, de nouvelles méthodes de collecte et de nouvelles schémasjuste pour “obtenir des résultats”.

Mais le fait est qu’une grande partie de ce que nous faisons en matière d’analyse est basée sur des observation et fournissant écurie données pour d’autres processus à digérer.

Nous sommes jardiniers. Pas des chasseurs de trésors.

Vérité #9 : Les données sont un effet secondaire.

D’accord, ce n’est pas toujours vrai (choquant !), mais c’est particulièrement poignant dans le monde du marketing et de l’analyse numériques.

Il y a très, très quelques réels caractéristiques dans les applications, les sites et les services dont objectif principal est de générer des données.

Au lieu de cela, en tant qu’analystes, nous puiser dans fonctionnalités existantes et ajouter la collecte de données en tant que effet secondaire pour eux.

L’objectif principal d’un formulaire de paiement n’est pas générer une conversion. Non – son objectif principal est générer un achat. Le ping de conversion n’est qu’un effet secondaire de ce processus.

En tant qu’analystes, nous avons tendance à nous laisser prendre par l’importance de notre travail et nous oublions que la plupart du temps, nos entreprises, nos clients, nos développeurs ou même nos spécialistes du marketing ne se soucie pas tant que ça de la génération de données. Ils veulent juste la fonctionnalité pour servir son objectif initial.

Pour cette raison, les tâches d’ingénierie des données sont souvent dépriorisé. C’est dommage, mais c’est aussi un fait.

La personne qui travaille avec les données doit clarifier l’importance de ces Effets secondaires, aussi. Le rôle de l’ingénieur de données (ou analyste) est souvent l’un des consultationcar ils doivent faire comprendre aux autres comment ces effets secondaires peuvent en fait valoir l’investissement en temps et en ressources plutôt qu’une simple surcharge de développement.

Vérité #10 : Les données sont difficiles.

Pendant des années et des années, toutes mes présentations se terminaient par une diapositive qui disait :

Les données sont difficiles. La qualité des données est gagnéne pas acquis.

Cela, je pense, est toujours très important. En particulier avec la pandémie de COVID-19, de plus en plus de personnes ont été exposées à de plus en plus de graphiques, de plus en plus d’analyses et de plus en plus d’interprétations erronées des données.

je espérer les gens comprennent à quel point il est difficile non seulement de collecter des donnéesmais pour comprendre son flux de traitementson impacts en avalson défis réglementaireset comment le présenter d’une manière significative.

je espérer les gens comprennent que « ML » et « IA » ne sont pas seulement des mots à la mode magiques. Les algorithmes qui alimentent l’apprentissage automatique et l’intelligence artificielle doivent être affinés et une composante humaine avec suffisamment d’expertise (et de courage) pour mettre les processus en marche.

Travailler avec des données est plus difficile que jamais. Il n’y a toujours pas de raccourcis : qualité des données doit être gagné grâce à un travail acharné, avec un esprit curieux et un cœur solide.

Simo dehors.

Source : www.simoahava.com

Articles similaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Bouton retour en haut de la page
Index