Dá se říci, že většina lidí, kteří používají statistiky, zná více parametrických analýz než neparametrických analýz. Neparametrické testy se také nazývají testy bez distribuce, protože nepředpokládají, že vaše data sledují konkrétní distribuci.
Možná jste slyšeli, že byste měli použít neparametrické testy, pokud vaše data nesplňují předpoklady parametrický test, zejména předpoklad o normálně distribuovaných datech. To zní jako příjemný a přímý způsob výběru, ale je třeba vzít v úvahu další aspekty.
V tomto příspěvku vám pomůžu určit, kdy byste měli použít:
- Znamená to parametrická analýza pro testovací skupinu.
- Neparametrická analýza pro medián testovací skupiny.
Zejména se zaměřím na důležitý důvod používat neparametrické testy, které ne Nepřipadá nám dost často zmiňováno!
Testy hypotézy průměru a mediánu
Neparametrické testy jsou jako paralelní vesmír s parametrickými testy. Tabulka ukazuje související páry testů hypotézy, které Minitab Nabídky statistického softwaru.
Parametrické testy (prostředky) |
Neparametrické testy (mediány) |
1-vzorek t testu |
1-vzorek Sign, 1-vzorek Wilcoxon |
2-ukázkový t test |
Mann-Whitneyův test |
Jednosměrná ANOVA |
Kruskal-Wallis, Moodův mediánový test |
Faktoriální DOE s jedním faktorem a jednou blokovací proměnnou |
Friedmanova zkouška |
Důvody pro použití parametrických testů
Důvod 1: Parametrické testy mohou fungovat dobře se zkosenými a nenormálními distribucemi
To může být překvapení, ale parametrické testy mohou dobře fungovat s kontinuálními daty, která jsou neobvyklá, pokud splníte pokyny pro velikost vzorku v níže uvedená tabulka. Tyto pokyny jsou založeny na simulačních studiích prováděných statistiky zde v Minitabu. Další informace o těchto studiích najdete v našich technických dokumentech.
Parametrické analýzy |
Pokyny pro velikost vzorku pro neobvyklá data |
1-ukázkový t test |
Větší než 20 |
2-ukázkový t test |
Každá skupina by měla být větší než 15 |
Jednosměrná ANOVA |
|
Důvod 2: Parametrické testy mohou fungovat dobře, když je rozpětí každé skupiny různé
Zatímco neparametrické testy nepředpokládají, že vaše data sledují normální distribuci, mají jiné předpoklady, které lze jen těžko splnit. U neparametrických testů, které porovnávají skupiny, se běžně předpokládá, že data pro všechny skupiny musí mít stejné rozpětí (rozptyl). Pokud mají vaše skupiny jiné rozpětí, mohou neparametrické testy poskytnout platné výsledky.
Na druhou stranu, pokud použijete 2-vzorkový t test nebo jednosměrný ANOVA, můžete jednoduše přejít na Dílčí dialog Možnosti a zrušte zaškrtnutí Předpokládat stejné odchylky. Ano, je dobré jít, i když mají skupiny různé spready!
Důvod 3: Statistická síla
Parametrické testy mají obvykle větší statistickou sílu než neparametrické testy. Je tedy pravděpodobnější, že detekujete významný účinek, když skutečně existuje.
Důvody pro použití neparametrických testů
Důvod 1: Vaše studijní oblast je lépe reprezentována mediánem
Toto je můj oblíbený důvod k použití neparametrického testu, který není dostatečně často zmiňován! Skutečnost, že můžete provést parametrický test s neobvyklými daty, neznamená, že průměrem je statistika, kterou chcete testovat.
Například střed šikmé distribuce, jako je příjem, může být lépe měřeno mediánem, kde 50% je nad mediánem a 50% je pod. Pokud do vzorku přidáte několik miliardářů, matematický průměr se výrazně zvýší, i když se příjem pro typickou osobu nezmění.
Když je vaše distribuce dostatečně vychýlená, průměr je silně ovlivněn změnami daleko v ocasu distribuce, zatímco medián nadále více odráží střed distribuce. U těchto dvou distribucí vytváří náhodný vzorek 100 z každé distribuce prostředky, které se výrazně liší, ale mediány, které se významně neliší.
Dva další příspěvky v blogu tento bod dobře ilustrují:
- Použití průměru v analýze dat: není to vždycky Slam-Dunk
- Neparametrická ekonomika: Co vlastně znamená průměr?
Důvod 2: Máte velmi malou velikost vzorku
Pokud nesplňujete pokyny pro velikost vzorku pro parametrické testy a nejste si jisti, že máte normálně distribuovaná data, měli byste použít neparametrický test. Pokud máte opravdu malý vzorek, možná nebudete moci zjistit distribuci svých dat, protože v testech distribuce nebude dostatek energie k poskytnutí smysluplných výsledků.
V tomto scénáři jste v těžké místo bez platné alternativy. Neparametrické testy mají na začátek menší sílu a je to dvojnásobná chyba, když navíc přidáte malou velikost vzorku!
Důvod 3: Máte pořadová data, hodnocená data nebo odlehlé hodnoty, které nemůžete remove
Typické parametrické testy mohou hodnotit pouze průběžná data a výsledky mohou výrazně ovlivnit odlehlé hodnoty. Naopak, některé neparametrické testy mohou zpracovávat pořadová data, hodnocená data a nesmí být vážně ovlivněny odlehlými hodnotami. Nezapomeňte zkontrolovat předpoklady pro neparametrický test, protože každý z nich má své vlastní požadavky na data.
Pokud máte data Likert a chcete porovnat dvě skupiny, přečtěte si můj příspěvek Nejlepší způsob, jak analyzovat data položky Likert: dva Ukázkový T-test versus Mann-Whitney.
Závěrečné myšlenky
Obvykle se předpokládá, že k potřebě volit mezi parametrickým a neparametrickým testem dochází, když vaše data nesplňují předpoklad parametrický test. To může být případ, když máte malou velikost vzorku a nenormální data. Roli však často hrají i jiné aspekty, protože parametrické testy mohou často zpracovat nenormální data. Naopak neparametrické testy mají přísné předpoklady, které nemůžete ignorovat.
Rozhodnutí často závisí na tom, zda střední hodnota nebo medián přesněji představuje střed distribuce vašich dat.
- Pokud průměr přesně odpovídá středu vaší distribuce a velikost vašeho vzorku je dostatečně velká, zvažte parametrický test, protože jsou výkonnější.
- Pokud medián lépe představuje střed vaší distribuce, zvažte neparametrický otestujte, i když máte velký vzorek.
Nakonec, pokud máte velmi malou velikost vzorku, můžete se zaseknout pomocí neparametrického testu. Sbírejte prosím příště více údajů, pokud je to vůbec možné! Jak vidíte, pokyny pro velikost vzorku nejsou tak velké. Vaše šance na detekci významného efektu, pokud existuje, může být velmi malá, pokud máte malou velikost vzorku a potřebujete použít méně účinný neparametrický test!