Nous connaissons tous le truisme « La corrélation n’implique pas de causalité », mais lorsque nous voyons des lignes s’inclinant ensemble, des barres s’élevant ensemble ou des points sur un clustering de nuage de points, les données sont pratiquement Nous voulons attribuer une raison. Nous voulons en croire qu’il en existe une.
Statistiquement, nous ne pouvons pas faire ce saut, cependant. Les graphiques qui montrent une corrélation étroite reposent souvent sur une astuce visuelle pour impliquer une relation. Tyler Vigen, étudiant en JD à la Harvard Law School et auteur de Spurious Correlations, en a fait le sport sur son site Web, qui trace des corrélations farfelues – par exemple, entre la consommation de margarine par habitant aux États-Unis et le taux de divorce dans le Maine.
Vigen a programmé son site pour que n’importe qui puisse trouver et tracer des corrélations absurdes dans de grands ensembles de données. Nous avons essayé quelques-unes des nôtres et avons trouvé ces gemmes:
Bien qu’il soit facile de repérer et d’expliquer des exemples absurdes comme ceux-ci, vous êtes susceptible de rencontrer des exemples truqués mais plausi graphiques dans votre travail quotidien. Voici trois types que les gestionnaires doivent surveiller:
Pommes et oranges comparant des variables différentes
Les échelles de l’axe Y qui mesurent des valeurs différentes peuvent afficher des courbes similaires qui ne doivent pas être associées. Cela devient pernicieux lorsque les valeurs semblent être liées mais ne le sont pas.
Il est préférable de les représenter séparément.
Echelles asymétriques manipulant les plages pour aligner les données
Même lorsque les axes Y mesurent la même catégorie, changer les échelles peut modifier les lignes pour suggérer une corrélation. Ces axes Y pour les revenus mensuels de RetailCo diffèrent par leur fourchette et leur augmentation proportionnelle.