Det er sikkert at sige, at de fleste mennesker, der bruger statistik, er mere fortrolige med parametriske analyser end ikke-parametriske analyser. Ikke-parametriske tests kaldes også distributionsfrie tests, fordi de ikke antager, at dine data følger en bestemt distribution.
Du har muligvis hørt, at du skal bruge ikke-parametriske tests, når dine data ikke opfylder antagelserne om den parametriske test, især antagelsen om normalt distribuerede data. Det lyder som en god og ligetil måde at vælge, men der er yderligere overvejelser.
I dette indlæg hjælper jeg dig med at bestemme, hvornår du skal bruge en:
- Parametrisk analyse til testgruppe betyder.
- Ikke-parametrisk analyse til testgruppemedianer.
Især vil jeg fokusere på en vigtig grund til at bruge ikke-parametriske tests, som jeg ikke laver ‘t tror bliver nævnt ofte nok!
Hypotese Test af middelværdien og medianen
Ikke-parametriske tests er som et parallelt univers til parametriske tests. Tabellen viser relaterede par af hypotesetest, som Minitab Statistisk software tilbyder.
Parametriske tests (betyder) |
Ikke-parametriske tests (medianer) |
1-prøve t-test |
1-prøve-tegn, 1-prøve Wilcoxon |
2-prøve t-test |
Mann-Whitney test |
Envejs ANOVA |
Kruskal-Wallis, Mood’s median test |
Faktorisk DOE med en faktor og en blokerende variabel |
Friedman-test |
Årsager til at bruge parametriske tests
Årsag 1: Parametriske tests kan fungere godt med skæve og ikke-normale fordelinger
Dette kan være en overraskelse, men parametriske tests kan fungere godt med kontinuerlige data, der er ikke-normale, hvis du opfylder retningslinjerne for stikprøvestørrelse i nedenstående tabel. Disse retningslinjer er baseret på simuleringsundersøgelser udført af statistikere her på Minitab. Hvis du vil vide mere om disse undersøgelser, skal du læse vores tekniske papirer.
Parametrisk analyser |
Retningslinjer for prøvestørrelse for ikke-normale data |
1-prøve t test |
Større end 20 |
2-prøve t-test |
Hver gruppe skal være større end 15 |
Envejs ANOVA |
|
Årsag 2: Parametriske tests kan fungere godt, når spredningen af hver gruppe er forskellige
Selvom ikke-parametriske tests ikke antager, at dine data følger en normalfordeling, har de andre antagelser, der kan være svære at imødekomme. For ikke-parametriske tests, der sammenligner grupper, er en almindelig antagelse, at dataene for alle grupper skal have den samme spredning (spredning). Hvis dine grupper har en anden spredning, giver de ikke-parametriske tests muligvis ikke gyldige resultater.
På den anden side, hvis du bruger 2-prøve t-testen eller One-Way ANOVA, kan du blot gå til Indstillinger underdialog og fjern markeringen Antag lige store afvigelser. Voilà, du er god at gå, selv når grupperne har forskellige opslag!
Årsag 3: Statistisk styrke
Parametriske tests har normalt mere statistisk styrke end ikke-parametriske tests. Således er det mere sandsynligt, at du opdager en signifikant effekt, når en virkelig eksisterer.
Årsager til at bruge ikke-parametriske tests
Årsag 1: Dit studieområde er bedre repræsenteret af medianen
Dette er min foretrukne grund til at bruge en ikke-parametrisk test, og den der ikke nævnes ofte nok! Det faktum, at du kan udføre en parametrisk test med ikke-normale data, betyder ikke, at gennemsnittet er den statistik, du vil teste.
For eksempel kan centrum for en skæv fordeling, som indkomst, være bedre målt ved medianen, hvor 50% er over medianen og 50% er under. Hvis du føjer et par milliardærer til en prøve, stiger det matematiske gennemsnit kraftigt, selvom indkomsten for den typiske person ikke ændrer sig.
Når din fordeling er skæv nok, påvirkes gennemsnittet stærkt af ændringer langt ude i distributionens hale, mens medianen fortsætter med at afspejle distributionens centrum nærmere. For disse to distributioner producerer en tilfældig stikprøve på 100 fra hver distribution midler, der er væsentligt forskellige, men medianer, der ikke er signifikant forskellige.
To andre blogindlæg illustrerer dette punkt godt:
- Brug af middelværdien i dataanalyse: Det er ikke altid en slam-dunk
- Den ikke-parametriske økonomi: Hvad betyder gennemsnittet egentlig?
Årsag 2: Du har en meget lille stikprøvestørrelse
Hvis du ikke overholder retningslinjerne for stikprøvestørrelse til de parametriske tests, og du ikke er sikker på, at du har normalt distribuerede data, skal du bruge en ikke-parametrisk test. Når du har en virkelig lille prøve, kan du muligvis ikke engang fastslå fordelingen af dine data, fordi distributionstestene mangler tilstrækkelig styrke til at give meningsfulde resultater.
I dette scenarie er du i en hårdt sted uden noget gyldigt alternativ. Ikke-parametriske tests har mindre styrke til at begynde med, og det er dobbelt whammy, når du tilføjer en lille stikprøvestørrelse oven på det!
Årsag 3: Du har ordinære data, rangerede data eller outliers, som du ikke kan fjerne
Typiske parametriske tests kan kun vurdere kontinuerlige data, og resultaterne kan blive væsentligt påvirket af outliers. Omvendt kan nogle ikke-parametriske tests håndtere ordinære data, rangerede data og ikke blive alvorligt påvirket af outliers. Sørg for at kontrollere antagelserne for den ikke-parametriske test, fordi hver enkelt har sine egne datakrav.
Hvis du har Likert-data og ønsker at sammenligne to grupper, skal du læse mit indlæg Bedste måde at analysere Likert-varedata på: To Eksempel på T-test versus Mann-Whitney.
Afslutning af tanker
Det menes almindeligvis, at behovet for at vælge mellem en parametrisk og ikke-parametrisk test opstår, når dine data ikke lever op til en antagelse om parametrisk test. Dette kan være tilfældet, når du har både en lille stikprøvestørrelse og ikke-normale data. Andre overvejelser spiller imidlertid ofte en rolle, fordi parametriske tests ofte kan håndtere ikke-normale data. Omvendt har ikke-parametriske tests strenge antagelser, som du ikke kan se bort fra.
Beslutningen afhænger ofte af, om gennemsnittet eller medianen mere nøjagtigt repræsenterer centrum for dine datas distribution.
- Hvis gennemsnittet nøjagtigt repræsenterer centrum for din distribution, og din stikprøvestørrelse er stor nok, skal du overveje en parametrisk test, fordi de er mere kraftfulde.
- Hvis medianen bedre repræsenterer centrum for din distribution, skal du overveje den ikke-parametriske test selv når du har en stor prøve.
Endelig, hvis du har en meget lille stikprøvestørrelse, sidder du muligvis fast ved hjælp af en ikke-parametrisk test. Indsaml venligst flere data næste gang, hvis det overhovedet er muligt! Som du kan se, er retningslinjerne for stikprøver ikke rigtig så store. Din chance for at opdage en signifikant effekt, når en findes, kan være meget lille, når du både har en lille prøvestørrelse, og du skal bruge en mindre effektiv ikke-parametrisk test!