Todos conocemos el tópico «La correlación no implica causalidad», pero cuando vemos líneas inclinadas juntas, barras que se elevan juntas o puntos en un clúster de diagramas de dispersión, los datos prácticamente suplican nosotros para asignar una razón. Queremos creer que existe una.
Estadísticamente no podemos dar ese salto, sin embargo. Los gráficos que muestran una correlación cercana a menudo se basan en un truco de salón visual para implicar una relación. Tyler Vigen, un estudiante de Doctorado en Jurisprudencia de la Facultad de Derecho de Harvard y autor de Spurious Correlations, se ha burlado de esto en su sitio web, que muestra correlaciones absurdas, por ejemplo, entre el consumo de margarina per cápita en EE. >
Vigen ha programado su sitio para que cualquiera pueda encontrar y trazar correlaciones absurdas en grandes conjuntos de datos. Probamos algunos de los nuestros y obtuvimos estas gemas:
Aunque es fácil de detectar y explicar ejemplos absurdos como estos, es probable que se encuentren manipulados pero plausi gráficos ble en su trabajo diario. Aquí hay tres tipos que los gerentes deben tener en cuenta:
Manzanas y naranjas que comparan variables diferentes
Las escalas del eje Y que miden valores diferentes pueden mostrar curvas similares que no deben emparejarse. Esto se vuelve pernicioso cuando los valores parecen estar relacionados, pero no lo son.
Es mejor representarlos por separado.
Escalas sesgadas Manipulación de rangos para alinear datos
Incluso cuando los ejes Y miden la misma categoría, cambiar las escalas puede alterar las líneas para sugerir una correlación. Estos ejes Y para los ingresos mensuales de RetailCo difieren en rango y aumento proporcional.