Velge mellom en ikke-parametrisk test og en parametrisk test

Det er trygt å si at de fleste som bruker statistikk, er mer kjent med parametriske analyser enn ikke-parametriske analyser. Ikke-parametriske tester kalles også distribusjonsfrie tester fordi de ikke antar at dataene dine følger en bestemt distribusjon.

Du har kanskje hørt at du bør bruke ikke-parametriske tester når dataene dine ikke oppfyller antagelsene om den parametriske testen, spesielt antagelsen om normalt distribuerte data. Det høres ut som en fin og grei måte å velge, men det er flere hensyn.

I dette innlegget vil jeg hjelpe deg med å bestemme når du skal bruke en:

  • Parametrisk analyse til testgruppe betyr.
  • Ikke-parametrisk analyse for testgruppemedianer.

Spesielt vil jeg fokusere på en viktig grunn til å bruke ikke-parametriske tester som jeg ikke gjør Tenk ikke blir nevnt ofte nok!

Hypotesetester av gjennomsnitt og median

Ikke-parametriske tester er som et parallelt univers til parametriske tester. Tabellen viser relaterte par hypotesetester som Minitab Statistisk programvare tilbyr.

Parametriske tester (betyr)

Ikke-parametriske tester (medianer)

1-prøve t-test

1-sample Sign, 1-sample Wilcoxon

2-sample t test

Mann-Whitney test

Enveis ANOVA

Kruskal-Wallis, Mood’s median test

Faktorisk DOE med en faktor og en blokkeringsvariabel

Friedman-test

Grunner til å bruke parametriske tester

Årsak 1: Parametriske tester kan fungere bra med skjev og ikke-normal fordeling

Dette kan være en overraskelse, men parametriske tester kan fungere godt med kontinuerlige data som ikke er normale hvis du tilfredsstiller retningslinjene for prøvestørrelse i tabellen nedenfor. Disse retningslinjene er basert på simuleringsstudier utført av statistikere her på Minitab. For å lære mer om disse studiene, les våre tekniske papirer.

Parametrisk analyser

Retningslinjer for prøvestørrelse for ikke-normale data

1-prøve t-test

Større enn 20

t-test med to prøver

Hver gruppe skal være større enn 15

Enveis ANOVA

  • Hvis du har 2-9 grupper, bør hver gruppe være større enn 15.
  • Hvis du har 10-12 grupper, bør hver gruppe være større enn 20.

Årsak 2: Parametriske tester kan fungere godt når spredningen til hver gruppe er forskjellige

Selv om ikke-parametriske tester ikke antar at dataene dine følger en normalfordeling, har de andre antagelser som det kan være vanskelig å oppfylle. For ikke-parametriske tester som sammenligner grupper, er en vanlig antagelse at dataene for alle grupper må ha samme spredning (spredning). Hvis gruppene dine har en annen spredning, kan det hende at ikke-parametriske tester ikke gir gyldige resultater.

På den annen side, hvis du bruker 2-prøve t-testen eller One-Way ANOVA, kan du ganske enkelt gå til Alternativer underdialog og fjern avmerkingen Anta like avvik. Voilà, du er god å gå, selv når gruppene har forskjellige spreads!

Årsak 3: Statistisk kraft

Parametriske tester har vanligvis mer statistisk kraft enn ikke-parametriske tester. Dermed er det mer sannsynlig at du oppdager en signifikant effekt når en virkelig eksisterer.

Grunner til å bruke ikke-parametriske tester

Årsak 1: Ditt studieområde er bedre representert av medianen

Dette er min favorittgrunn til å bruke en ikke-parametrisk test og den som ikke blir nevnt ofte nok! Det faktum at du kan utføre en parametrisk test med ikke-normale data, betyr ikke at gjennomsnittet er statistikken du vil teste.

For eksempel kan sentrum av en skjev fordeling, som inntekt, være bedre målt ved medianen der 50% er over medianen og 50% er under. Hvis du legger til noen milliardærer i et utvalg, øker det matematiske gjennomsnittet sterkt selv om inntekten for den typiske personen ikke endres.

Når fordelingen din er skjev nok, blir gjennomsnittet sterkt påvirket av endringer langt ute i distribusjonens hale, mens medianen fortsetter å reflektere sentrum av distribusjonen nærmere. For disse to distribusjonene gir et tilfeldig utvalg på 100 fra hver distribusjon midler som er vesentlig forskjellige, men medianer som ikke er vesentlig forskjellige.

To andre blogginnlegg illustrerer dette punktet godt:

  • Bruk av gjennomsnittet i dataanalyse: Det er ikke alltid en slam-dunk
  • Den ikke-parametriske økonomien: Hva betyr gjennomsnittet egentlig?

Årsak 2: Du har en veldig liten utvalgstørrelse

Hvis du ikke oppfyller retningslinjene for prøvestørrelse for parametriske tester, og du ikke er trygg på at du har normalt distribuert data, bør du bruke en ikke-parametrisk test. Når du har et veldig lite utvalg, kan du ikke engang finne ut distribusjonen av dataene dine fordi distribusjonstestene vil mangle tilstrekkelig kraft til å gi meningsfulle resultater.

I dette scenariet er du i en tøft sted uten noe gyldig alternativ. Ikke-parametriske tester har mindre kraft til å begynne med, og det er en dobbel whammy når du legger til en liten utvalgstørrelse på toppen av det!

Årsak 3: Du har ordinær data, rangert data eller avvik som du ikke kan fjerne

Typiske parametriske tester kan bare vurdere kontinuerlige data, og resultatene kan bli betydelig påvirket av avvikere. Omvendt kan noen ikke-parametriske tester håndtere ordinær data, rangert data og ikke bli alvorlig påvirket av outliers. Husk å sjekke forutsetningene for den ikke-parametriske testen fordi hver og en har sine egne datakrav.

Hvis du har Likert-data og ønsker å sammenligne to grupper, kan du lese innlegget mitt Beste måten å analysere Likert-varedata: To Eksempel på T-test versus Mann-Whitney.

Avsluttende tanker

Det er ofte antatt at behovet for å velge mellom en parametrisk og ikke-parametrisk test oppstår når dataene dine ikke oppfyller en antagelse om parametrisk test. Dette kan være tilfelle når du har både en liten utvalgstørrelse og ikke-normale data. Imidlertid spiller andre hensyn ofte en rolle fordi parametriske tester ofte kan håndtere ikke-normale data. Omvendt har ikke-parametriske tester strenge forutsetninger som du ikke kan se bort fra.

Avgjørelsen avhenger ofte av om gjennomsnittet eller medianen mer nøyaktig representerer sentrum for datadistribusjonen.

  • Hvis gjennomsnittet nøyaktig representerer sentrum for distribusjonen din, og prøvestørrelsen din er stor nok, bør du vurdere en parametrisk test fordi de er kraftigere.
  • Hvis medianen bedre representerer sentrum av distribusjonen din, bør du vurdere den ikke-parametriske test selv når du har et stort utvalg.

Til slutt, hvis du har en veldig liten utvalgstørrelse, kan det hende du sitter fast med en ikke-parametrisk test. Vær så snill, samle inn mer data neste gang hvis det er mulig! Som du kan se, er ikke retningslinjene for utvalgstørrelse så store. Sjansen din for å oppdage en betydelig effekt når en eksisterer, kan være veldig liten når du både har en liten utvalgstørrelse, og du må bruke en mindre effektiv ikke-parametrisk test!

Write a Comment

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *