We kennen allemaal de waarheid “Correlatie impliceert geen oorzakelijk verband”, maar als we lijnen naar elkaar toe zien lopen, balken naar elkaar toe zien stijgen of punten op een scatterplot clustering zien, smeken de gegevens praktisch ons een reden toe te wijzen. We willen geloven dat er een bestaat.
Statistisch gezien kunnen we die sprong echter niet maken. Grafieken die een nauw verband laten zien, vertrouwen vaak op een visuele truc om een relatie te suggereren. Tyler Vigen, een JD-student aan de Harvard Law School en de auteur van Spurious Correlations, heeft hiervan op zijn website, die kluchtige correlaties in kaart brengt – bijvoorbeeld tussen margarineconsumptie per hoofd van de bevolking in de VS en het aantal echtscheidingen in Maine.
Vigen heeft zijn site zo geprogrammeerd dat iedereen absurde correlaties in grote datasets kan vinden en in kaart kan brengen. We hebben er zelf een paar uitgeprobeerd en kwamen met deze edelstenen:
Hoewel het gemakkelijk is om absurde voorbeelden als deze te herkennen en weg te redeneren, zul je waarschijnlijk opgetuigde maar plausi tegenkomen ble grafieken in uw dagelijkse werk. Hier zijn drie typen waar managers op moeten letten:
Appels en sinaasappels die ongelijke variabelen vergelijken
Y-asschalen die verschillende waarden meten, kunnen vergelijkbare curven vertonen die niet mogen worden gecombineerd. Dit wordt schadelijk als de waarden gerelateerd lijken te zijn, maar dat niet zijn.
Het is het beste om ze afzonderlijk in kaart te brengen.
Scheve schalen die bereiken manipuleren om gegevens uit te lijnen
Zelfs wanneer Y-assen dezelfde categorie meten, kan het veranderen van de schalen de lijnen veranderen om een correlatie te suggereren. Deze Y-assen voor de maandelijkse inkomsten van RetailCo verschillen qua bereik en evenredige toename.