Todos nós conhecemos o truísmo “Correlação não implica causalidade”, mas quando vemos linhas inclinadas juntas, barras subindo juntas ou pontos em um gráfico de dispersão agrupados, os dados praticamente imploram para atribuirmos um motivo. Queremos acreditar que existe um.
Estatisticamente, não podemos dar esse salto, no entanto. Gráficos que mostram uma correlação próxima geralmente dependem de um truque visual para sugerir um relacionamento. Tyler Vigen, um estudante JD na Escola de Direito de Harvard e autor de Spurious Correlations, zombou disso em seu site, que traça correlações ridículas – por exemplo, entre o consumo per capita de margarina nos EUA e a taxa de divórcio no Maine. >
Vigen programou seu site para que qualquer pessoa possa encontrar e mapear correlações absurdas em grandes conjuntos de dados. Tentamos alguns dos nossos e descobrimos estas joias:
Embora seja fácil identificar e explicar exemplos absurdos como esses, é provável que você encontre uma fraude, mas plausi gráficos em seu trabalho diário. Aqui estão três tipos de gerentes que devem estar atentos:
Maçãs e laranjas comparando variáveis diferentes
As escalas do eixo Y que medem valores diferentes podem mostrar curvas semelhantes que não devem ser emparelhadas. Isso se torna pernicioso quando os valores parecem estar relacionados, mas não estão.
É melhor traçá-los separadamente.
Escalas distorcidas manipulando intervalos para alinhar dados
Mesmo quando os eixos Y medem a mesma categoria, alterar as escalas pode alterar as linhas para sugerir uma correlação. Esses eixos Y para a receita mensal da RetailCo diferem em alcance e aumento proporcional.