統計を使用するほとんどの人は、ノンパラメトリック分析よりもパラメトリック分析に精通していると言っても過言ではありません。ノンパラメトリック検定は、データが特定の分布に従うことを前提としないため、分布なしの検定とも呼ばれます。
データが以下の仮定を満たさない場合は、ノンパラメトリック検定を使用する必要があると聞いたことがあるかもしれません。パラメトリック検定、特に正規分布データに関する仮定。これは、選択するのに便利で簡単な方法のように思えますが、追加の考慮事項があります。
この投稿では、次をいつ使用するかを決定するのに役立ちます。
- テストグループの平均に対するパラメトリック分析。
- テストグループの中央値に対するノンパラメトリック分析。
特に、私が行っていないノンパラメトリック検定を使用する重要な理由に焦点を当てます。十分な頻度で言及されるとは思わない!
平均と中央値の仮説検定
ノンパラメトリック検定は、パラメトリック検定と平行した宇宙のようなものです。表は、Minitabが関連する仮説検定のペアを示しています。統計ソフトウェアが提供します。
パラメトリック検定(平均) |
ノンパラメトリック検定(中央値) |
1サンプルt検定 |
1サンプルの符号、1サンプルのWilcoxon |
2サンプルのt検定 |
マンホイットニー検定 |
一方向ANOVA |
クラスカル・ウォリス、ムードの中央値検定 |
1つの因子と1つのブロッキング変数を持つファクトリアルDOE |
フリードマン検定 |
パラメトリック検定を使用する理由
理由1:パラメトリック検定は、偏った非正規分布でうまく機能する可能性があります
これは意外かもしれませんが、パラメトリック検定は、サンプルサイズのガイドラインを満たしている場合、非正規である連続データでうまく機能する可能性があります。以下の表。これらのガイドラインは、ここMinitabで統計学者が実施したシミュレーション研究に基づいています。これらの研究の詳細については、テクニカルペーパーをご覧ください。
パラメトリック分析 |
ノンパラメトリックデータのサンプルサイズのガイドライン |
1-サンプルt検定 |
20より大きい |
2サンプルt検定 |
各グループは15より大きい必要があります |
一元配置分散分析 |
|
理由2:パラメトリック検定は、各グループの広がりが異なる
ノンパラメトリック検定は、データが正規分布に従うことを前提とはしていませんが、満たすのが難しい可能性のある他の仮定があります。グループを比較するノンパラメトリック検定の場合、一般的な仮定は、すべてのグループのデータが同じ広がり(分散)を持っている必要があるということです。グループの分散が異なる場合、ノンパラメトリック検定では有効な結果が得られない可能性があります。
一方、2標本t検定または一元配置分散分析を使用する場合は、オプションサブダイアログとチェックを外します等しい分散を仮定します。 Voilà、グループのスプレッドが異なっていても問題ありません!
理由3:統計的検出力
通常、パラメトリック検定はノンパラメトリック検定よりも統計的検出力が高くなります。したがって、実際に存在する場合に有意な効果を検出する可能性が高くなります。
ノンパラメトリック検定を使用する理由
理由1:研究領域は中央値でより適切に表されます
これは、ノンパラメトリック検定を使用する私のお気に入りの理由であり、十分に言及されていないものです。非正規データを使用してパラメトリック検定を実行できるという事実は、平均が検定したい統計であることを意味しません。
たとえば、収入のような偏った分布の中心は、 50%が中央値を上回り、50%が中央値を下回る中央値でより適切に測定されます。サンプルに数億万長者を追加すると、一般的な人の収入は変わらなくても、算術平均は大幅に増加します。
分布が十分に歪んでいる場合、平均は大幅な変化の影響を強く受けます。中央値は分布の中心をより厳密に反映し続けますが、分布の裾に出ます。これらの2つの分布の場合、各分布からの100のランダムサンプルは、有意に異なる平均を生成しますが、中央値は有意に異なりません。
他の2つのブログ投稿は、この点をよく示しています。
- データ分析での平均の使用:必ずしもスラムダンクではありません
- ノンパラメトリック経済:平均は実際には何を意味しますか?
理由2:サンプルサイズが非常に小さい
パラメトリック検定のサンプルサイズのガイドラインを満たしていない場合で、自信がない場合正規分布のデータの場合、ノンパラメトリック検定を使用する必要があります。サンプルが非常に少ない場合、分散テストでは意味のある結果を提供するのに十分な能力が不足しているため、データの分散を確認することさえできない場合があります。
このシナリオでは、有効な代替手段がない厳しい場所。ノンパラメトリック検定は、そもそも検出力が低く、その上に小さなサンプルサイズを追加すると、二重の苦痛になります!
理由3:順序データ、ランク付けされたデータ、または外れ値があります。削除
一般的なパラメトリック検定では連続データのみを評価でき、結果は外れ値の影響を大きく受ける可能性があります。逆に、一部のノンパラメトリック検定は、順序データ、ランク付けされたデータを処理でき、外れ値の影響を大きく受けません。それぞれに独自のデータ要件があるため、ノンパラメトリック検定の仮定を必ず確認してください。
リッカートデータがあり、2つのグループを比較する場合は、私の投稿「リッカート項目データを分析するための最良の方法:2」をお読みください。サンプルT検定とマンホイットニー。
結論
データが仮定を満たさない場合、パラメトリック検定とノンパラメトリック検定のどちらかを選択する必要があると一般に考えられています。パラメトリック検定。これは、サンプルサイズが小さく、データが正常でない場合に当てはまります。ただし、パラメトリックテストは非正規データを処理できることが多いため、他の考慮事項がしばしば役割を果たす。逆に、ノンパラメトリック検定には、無視できない厳密な仮定があります。
決定は、多くの場合、平均または中央値がデータの分布の中心をより正確に表すかどうかによって異なります。
- 平均が分布の中心を正確に表し、サンプルサイズが十分に大きい場合は、より強力であるため、パラメトリック検定を検討してください。
- 中央値が分布の中心をより適切に表す場合は、ノンパラメトリックを検討してください。サンプルが大きい場合でもテストします。
最後に、サンプルサイズが非常に小さい場合は、ノンパラメトリック検定を使用してスタックする可能性があります。可能であれば、次回はさらにデータを収集してください。ご覧のとおり、サンプルサイズのガイドラインはそれほど大きくありません。サンプルサイズが小さく、効率の低いノンパラメトリック検定を使用する必要がある場合、有意な効果が存在する場合にそれを検出する可能性は非常に低くなる可能性があります。