On peut affirmer avec certitude que la plupart des utilisateurs de statistiques connaissent mieux les analyses paramétriques que les analyses non paramétriques. Les tests non paramétriques sont également appelés tests sans distribution car ils ne supposent pas que vos données suivent une distribution spécifique.
Vous avez peut-être entendu dire que vous devriez utiliser des tests non paramétriques lorsque vos données ne répondent pas aux hypothèses de le test paramétrique, en particulier l’hypothèse concernant les données normalement distribuées. Cela semble être une manière simple et simple de choisir, mais il y a des considérations supplémentaires.
Dans cet article, je vais vous aider à déterminer quand vous devriez utiliser un:
- Analyse paramétrique pour tester les moyennes des groupes.
- Analyse non paramétrique pour tester les médianes des groupes.
En particulier, je vais me concentrer sur une raison importante d’utiliser des tests non paramétriques que je ne fais pas Je ne pense pas être mentionné assez souvent!
Tests d’hypothèse de la moyenne et de la médiane
Les tests non paramétriques sont comme un univers parallèle aux tests paramétriques. Le tableau présente des paires de tests d’hypothèse que Minitab Offres de logiciels statistiques.
Tests paramétriques (moyennes) |
Tests non paramétriques (médianes) |
Test t à 1 échantillon |
1 échantillon de signe, 1 échantillon de Wilcoxon |
2 échantillons de test t |
Test de Mann-Whitney |
ANOVA unidirectionnelle |
Kruskal-Wallis, test médian de Mood |
DOE factoriel avec un facteur et une variable de blocage |
Test de Friedman |
Raisons d’utiliser les tests paramétriques
Raison 1: Les tests paramétriques peuvent bien fonctionner avec des distributions asymétriques et non normales
Cela peut être une surprise, mais les tests paramétriques peuvent bien fonctionner avec des données continues qui ne sont pas normales si vous respectez les directives de taille d’échantillon dans Le tableau ci-dessous. Ces lignes directrices sont basées sur des études de simulation menées par des statisticiens chez Minitab. Pour en savoir plus sur ces études, lisez nos documents techniques.
Paramétrique analyses |
Directives de taille d’échantillon pour les données non normales |
Test t à 1 échantillon |
Supérieur à 20 |
Test t à 2 échantillons |
Chaque groupe doit être supérieur à 15 |
ANOVA unidirectionnelle |
|
Raison 2: Les tests paramétriques peuvent bien fonctionner lorsque la répartition de chaque groupe est différent
Bien que les tests non paramétriques ne supposent pas que vos données suivent une distribution normale, ils ont d’autres hypothèses qui peuvent être difficiles à respecter. Pour les tests non paramétriques qui comparent des groupes, une hypothèse courante est que les données de tous les groupes doivent avoir la même dispersion (dispersion). Si vos groupes ont une répartition différente, les tests non paramétriques peuvent ne pas fournir de résultats valides.
D’un autre côté, si vous utilisez le test t à 2 échantillons ou l’ANOVA à un facteur, vous pouvez simplement accéder à la Sous-boîte de dialogue Options et décochez Assumer des variances égales. Voilà, vous êtes prêt à partir même lorsque les groupes ont des spreads différents!
Raison 3: Puissance statistique
Les tests paramétriques ont généralement plus de puissance statistique que les tests non paramétriques. Ainsi, vous êtes plus susceptible de détecter un effet significatif quand il en existe vraiment un.
Raisons d’utiliser des tests non paramétriques
Raison 1: Votre domaine d’étude est mieux représenté par la médiane
C’est ma raison préférée pour utiliser un test non paramétrique et celui qui n’est pas mentionné assez souvent! Le fait que vous puissiez effectuer un test paramétrique avec des données non normales n’implique pas que la moyenne soit la statistique que vous voulez tester.
Par exemple, le centre d’une distribution asymétrique, comme le revenu, peut être mieux mesurée par la médiane où 50% sont au-dessus de la médiane et 50% sont en dessous. Si vous ajoutez quelques milliardaires à un échantillon, la moyenne mathématique augmente considérablement même si le revenu de la personne type ne change pas.
Lorsque votre distribution est suffisamment biaisée, la moyenne est fortement affectée par les changements de loin dans la queue de la distribution alors que la médiane continue de refléter plus étroitement le centre de la distribution. Pour ces deux distributions, un échantillon aléatoire de 100 de chaque distribution produit des moyennes qui sont significativement différentes, mais des médianes qui ne sont pas significativement différentes.
Deux autres articles de blog illustrent bien ce point:
- Utilisation de la moyenne dans l’analyse des données: ce n’est pas toujours un slam-dunk
- L’économie non paramétrique: que signifie réellement la moyenne?
Raison 2: vous avez une très petite taille d’échantillon
Si vous ne respectez pas les directives relatives à la taille de l’échantillon pour les tests paramétriques et que vous n’êtes pas sûr d’avoir données normalement distribuées, vous devez utiliser un test non paramétrique. Lorsque vous avez un très petit échantillon, vous ne pourrez peut-être même pas vérifier la distribution de vos données car les tests de distribution n’auront pas suffisamment de puissance pour fournir des résultats significatifs.
Dans ce scénario, vous êtes dans un endroit difficile sans alternative valable. Les tests non paramétriques ont moins de puissance au départ et c’est un double coup dur lorsque vous ajoutez une petite taille d’échantillon en plus!
Raison 3: Vous avez des données ordinales, des données classées ou des valeurs aberrantes que vous ne pouvez pas remove
Les tests paramétriques typiques ne peuvent évaluer que des données continues et les résultats peuvent être considérablement affectés par les valeurs aberrantes. À l’inverse, certains tests non paramétriques peuvent gérer des données ordinales, des données classées et ne pas être sérieusement affectés par les valeurs aberrantes. Assurez-vous de vérifier les hypothèses pour le test non paramétrique car chacun a ses propres exigences en matière de données.
Si vous avez des données Likert et que vous souhaitez comparer deux groupes, lisez mon article Meilleure façon d’analyser les données des éléments Likert: Deux Exemple de test T versus Mann-Whitney.
Réflexions de clôture
On pense généralement que le besoin de choisir entre un test paramétrique et non paramétrique se produit lorsque vos données ne répondent pas à une hypothèse de test paramétrique. Cela peut être le cas lorsque vous disposez à la fois d’une petite taille d’échantillon et de données non normales. Cependant, d’autres considérations jouent souvent un rôle car les tests paramétriques peuvent souvent traiter des données non normales. À l’inverse, les tests non paramétriques reposent sur des hypothèses strictes que vous ne pouvez pas ignorer.
La décision dépend souvent de savoir si la moyenne ou la médiane représente plus précisément le centre de la distribution de vos données.
- Si la moyenne représente avec précision le centre de votre distribution et que la taille de votre échantillon est suffisamment grande, envisagez un test paramétrique car ils sont plus puissants.
- Si la médiane représente mieux le centre de votre distribution, considérez le non paramétrique testez même si vous avez un grand échantillon.
Enfin, si vous avez une très petite taille d’échantillon, vous risquez d’être bloqué en utilisant un test non paramétrique. S’il vous plaît, collectez plus de données la prochaine fois si c’est possible! Comme vous pouvez le constater, les consignes relatives à la taille de l’échantillon ne sont pas vraiment importantes. Vos chances de détecter un effet significatif quand il en existe un peuvent être très faibles lorsque vous avez à la fois une petite taille d’échantillon et que vous devez utiliser un test non paramétrique moins efficace!