効果量の約50から100の異なる尺度が知られています。異なる種類の多くの効果サイズは、2つの分布の分離を推定するため、他の型に変換することができる。たとえば、相関係数はコーエンの標準偏差に変換でき、その逆も可能です。
相関ファミリー:「分散の説明」に基づく効果量編集
これらの効果量は量を推定します実験のモデルによって「説明」または「説明」された実験内の分散の分散(説明された変動)。
ピアソンrまたは相関係数編集
ピアソンの相関は、しばしばrと表記され、Karl Pearsonによって導入され、ペアの定量的データが利用可能な場合の効果量として広く使用されます。たとえば、出生時体重と寿命の関係を研究している場合などです。相関係数は、データがバイナリの場合にも使用できます。 .Pearson “srの大きさは-1から1まで変化し、-1は完全な負の線形関係を示し、1は完全な正の線形関係を示し、0は2つの変数間に線形関係がないことを示します。コーエンは、社会科学に関する次のガイドラインを示しています。
効果量 | r |
---|---|
小 | 0.10 |
中 | 0.30 |
大 | 0.50 |
決定係数(r2またはR2)編集
関連する効果量はr2であり、決定係数(R2または「r-squared」とも呼ばれます)が計算されます。ピアソン相関rの二乗として。ペアのデータの場合、これは2つの変数が共有する分散の比率の尺度であり、0から1まで変化します。たとえば、rが0.21の場合、決定係数は0.0441であり、これは、いずれかの変数の分散は、他の変数と共有されます。 r2は常に正であるため、2つの変数間の相関の方向を伝えません。
イータ二乗(η2)編集
イータ二乗は、説明された分散の比率を表します他の予測子を制御しながら、予測子による従属変数で、r2に類似したものにします。 Eta-squaredは、母集団のモデルによって説明される分散をバイアスした推定量である(サンプル中の効果サイズのみを推定する)。この推定は、それぞれの変数がη2の値を自動的に増加させるという弱点をr2と共有している。さらに、母集団ではなくサンプルについて説明された分散を測定します。つまり、サンプルが大きくなるにつれてバイアスは小さくなりますが、効果量は常に過大評価されます。
η2= SS処理SS合計。 {\ displaystyle \ eta ^ {2} = {\ frac {SS _ {\ text {Treatment}}} {SS _ {\ text {Total}}}}。}
オメガ二乗(ω2)編集
母集団で説明される分散のバイアスの少ない推定量は、ω2
ω2= SS処理-df処理・MSエラーSS合計+ MSエラーです。 {\ displaystyle \ omega ^ {2} = {\ frac {{\ text {SS}} _ {\ text {treatment}}-df _ {\ text {treatment}} \ cdot {\ text {MS}} _ {\ text {error}}} {{\ text {SS}} _ {\ text {total}} + {\ text {MS}} _ {\ text {error}}}}。}
この形式の数式すべてのセルでサンプルサイズが等しい被験者間分析に限定されます。バイアスが小さいためη2よりもω2の方が適している。しかし、複雑な解析を計算する方が不便なことがある。推定量の一般化された形式は、被験者間および被験者内分析、反復測定、混合設計、ランダム化ブロック設計実験のために公開されている。さらに、最大3つの独立変数を持つ設計の個々の因子および結合因子の部分ω2を計算する方法が公開されています。
コーエンのƒ2編集
コーエンのƒ2は1つです。 ANOVAまたは重回帰のF検定のコンテキストで使用するいくつかの効果量測定の例。そのバイアスの量(ANOVAの効果サイズの過大評価)は、説明されている分散分析の基礎となる測定値のバイアス(R2、η2、ω2など)に依存します。
重回帰のƒ2効果サイズの測定値は次のように定義されます。
f 2 = R 2 1 − R 2 {\ displaystyle f ^ {2} = {R ^ {2} \ over 1-R ^ {2}}}ここで、R2は二乗多重相関です。 。
同様に、ƒ2は次のように定義できます。
f 2 = η21−η2 {\ displaystyle f ^ {2} = {\ eta ^ {2} \ over 1- \ eta ^ {2} }}またはf2 = ω21−ω2 {\ displaystyle f ^ {2} = {\ omega ^ {2} \ over 1- \ omega ^ {2}}}は、これらの効果量測定によって記述されたモデルの場合。
順次重回帰のf2 {\ displaystyle f ^ {2}}効果サイズの尺度であり、PLSモデリングでも一般的であると、次のように定義されます。
f 2 = RAB 2 − RA 2 1 − RAB 2 {\ displaystyle f ^ {2} = {R_ {AB} ^ {2} -R_ {A} ^ {2} \ over 1-R_ {AB} ^ {2}}}ここで、R2Aは、次のセットによって説明される分散です。 1つ以上の独立変数A、およびR2ABは、Aと1つ以上の対象の独立変数Bの別のセットによって説明される結合分散です。慣例により、ƒ2効果サイズ0.1 2 {\ displaystyle 0.1 ^ {2}}、0.25 2 {\ displaystyle 0.25 ^ {2}}、および0.4 2 {\ displaystyle 0.4 ^ {2}}は、それぞれ小、中、大と呼ばれます。
Cohen “sf ^ {\ displaystyle {\ hat {f}}}は、以下を使用して、逆方向に作用する分散分析(ANOVA)にも使用できます。
f ^ Effect =(F Effect df Effect / N )。{\ displaystyle {\ hat {f}} _ {\ text {effect}} = {\ sqrt {(F _ {\ text {effect}} df _ {\ text {effect}} / N)}}。}
ANOVAのバランスの取れた設計(グループ間で同等のサンプルサイズ)では、f 2 {\ displaystyle f ^ {2}}の対応する母集団パラメーターは
SS(μ1、μ2、…、μK)です。 K×σ2、{\ displaystyle {SS(\ mu _ {1}、\ mu _ {2}、\ dots、\ mu _ {K})} \ over {K \ times \ sigma ^ {2}}、 }
ここで、μjは合計Kグループのj番目のグループ内の母集団平均を示し、σは各グループ内の同等の母集団標準偏差を示します。SSはANOVAの二乗の合計です。
コーエンq編集
相関差で使用される別の尺度はコーエンのqです。これは2つのフィッシャー変換されたピアソン回帰係数の差です。記号では、これは
q =12log1+ r 1 1 − r 1 −12log1+ r 2 1 − r 2 {\ displaystyle q = {\ frac {1} {2}} \ log {\ frac {1 + r_ {1}} {1-r_ {1}}}-{\ frac {1} {2} } \ log {\ frac {1 + r_ {2}} {1-r_ {2}}}}
ここで、r1とr2は比較される回帰です。 qの期待値はゼロであり、その分散は次のとおりです。
var(q)= 1 N 1 − 3 + 1 N 2 − 3 {\ displaystyle \ operatorname {var}(q)= {\ frac {1} {N_ {1} -3}} + {\ frac {1} {N_ {2} -3}}}
ここで、N1とN2は、それぞれ1番目と2番目の回帰のデータポイントの数です。
差異ファミリー:平均間の差異に基づく効果量編集
さまざまな値を示すガウス密度のプロットコーエンのd。
平均に基づく(母集団)効果量θは、通常、2つの母集団間の標準化された平均差を考慮します:78
θ=μ1 −μ2σ、{\ displaystyle \ theta = {\ frac {\ mu _ {1}-\ mu _ {2}} {\ sigma}}、}
ここで、μ1は1つの母集団の平均、μ2は他の母集団の平均であり、σはいずれかまたは両方の母集団に基づく標準偏差です。
実際の設定では、母集団の値は通常不明であり、サンプル統計から推定する必要があります。平均に基づく効果量のnsは、使用される統計量によって異なります。
効果量のこの形式は、t検定統計量の計算に似ていますが、t検定統計量に含まれる重大な違いがあります。 nの係数{\ displaystyle {\ sqrt {n}}}。これは、与えられた効果サイズに対して、サンプルサイズに応じて有意水準が増加することを意味する。 t検定統計とは異なり、効果量は母集団パラメーターの推定を目的としており、サンプルサイズの影響を受けません。
Cohen “sd Edit
Cohen” sdは次のように定義されます。 2つの平均間の差をデータの標準偏差で割ったもの。つまり
d = x¯1−x¯2s = μ1−μ2s。 {\ displaystyle d = {\ frac {{\ bar {x}} _ {1}-{\ bar {x}} _ {2}} {s}} = {\ frac {\ mu _ {1}-\ mu _ {2}} {s}}。}
Jacob Cohenは、プールされた標準偏差sを(2つの独立したサンプルの場合):: 67
s =(n 1 − 1)s 12と定義しました。 +(n 2 − 1)s 2 2 n 1 + n 2 − 2 {\ displaystyle s = {\ sqrt {\ frac {(n_ {1} -1)s_ {1} ^ {2} +(n_ {2 } -1)s_ {2} ^ {2}} {n_ {1} + n_ {2} -2}}}}
ここで、グループの1つの分散は次のように定義されます
s 1 2 = 1 n 1 − 1 ∑ i = 1 n 1(x 1、i −x¯1)2、{\ displaystyle s_ {1} ^ {2} = {\ frac {1} {n_ {1} -1} } \ sum _ {i = 1} ^ {n_ {1}}(x_ {1、i}-{\ bar {x}} _ {1})^ {2}、}
他の場合も同様グループ。
以下の表には、Cohenによって最初に提案され、Sawilowskyによって拡張された、d = 0.01〜2.0の大きさの記述子が含まれています。
効果サイズ | d | 参照 |
---|---|---|
非常に小さい | 0.01 | |
小さい | 0.20 | |
中 | 0.50 | |
大きい | 0.80 | |
非常に大きい | 1.20 | |
巨大 | 2。0 |
他の作成者はわずかに異なる計算を選択します分母に「-2」がない「コーエン」sdを参照する場合の標準偏差の値:14
s =(n 1 − 1)s 1 2 +(n 2 − 1)s 2 2 n 1 + n 2 {\ displaystyle s = {\ sqrt {\ frac {(n_ {1} -1)s_ {1} ^ {2} +(n_ {2} -1)s_ {2} ^ {2}} { n_ {1} + n_ {2}}}}}
この “Cohen” sd “の定義は、HedgesとOlkinによって最尤推定量と呼ばれ、スケーリング係数によってHedges” gに関連付けられています(以下を参照)。 。
2つのペアのサンプルを使用して、差スコアの分布を調べます。この場合、sはこの差スコアの分布の標準偏差です。これにより、t統計値の間に次の関係が作成されます。 2つのグループとCohen “sdの平均の違いをテストするには:
t = X¯1−X¯2SE = X¯1−X¯2SD N = N(X¯1−X¯ 2)SD {\ displaystyle t = {\ frac {{\ bar {X}} _ {1}-{\ bar {X}} _ {2}} {\ text {SE}}} = {\ frac {{ \ bar {X}} _ {1}-{\ bar {X}} _ {2}} {\ frac {\ text {SD}} {\ sqrt {N}}}} = {\ frac {{\ sqrt {N}}({ \ bar {X}} _ {1}-{\ bar {X}} _ {2})} {SD}}}
および
d = X¯1−X¯2SD = t N {\ displaystyle d = {\ frac {{\ bar {X}} _ {1}-{\ bar {X}} _ {2}} {\ text {SD}}} = {\ frac {t} {\ sqrt {N}}}}
Cohen “sdは、統計的検定のサンプルサイズの推定によく使用されます。より低いコーエン “sdは、より大きなサンプルサイズの必要性を示し、逆もまた同様です。これは、必要な有意水準と統計的検出力の追加パラメーターとともに後で決定できます。
ガラス”Δ編集
1976年、Gene V. Glassは、2番目のグループの標準偏差のみを使用する効果量の推定量を提案しました:78
Δ= x¯1−x¯2s 2 {\ displaystyle \ Delta = { \ frac {{\ bar {x}} _ {1}-{\ bar {x}} _ {2}} {s_ {2}}}}
2番目のグループはコントロールグループと見なすことができ、 Glassは、複数の処理を対照グループと比較する場合、効果サイズが等しい平均と異なる分散の下で異ならないように、対照グループから計算された標準偏差のみを使用する方がよいと主張しました。
Under等しい母分散の正しい仮定は、σのプールされた推定値がより正確です。
ヘッジ “gEdit
ヘッジ” gは、1981年にLarry Hedgesによって提案され、他の測定値に基づいています。標準化されたdi fference:79
g = x¯1−x¯2s ∗ {\ displaystyle g = {\ frac {{\ bar {x}} _ {1}-{\ bar {x}} _ {2} } {s ^ {*}}}}
ここで、プールされた標準偏差s ∗ {\ displaystyle s ^ {*}}は次のように計算されます:
s ∗ =(n 1 − 1)s 1 2 + (n 2 − 1)s 2 2 n 1 + n 2 −2。 {\ displaystyle s ^ {*} = {\ sqrt {\ frac {(n_ {1} -1)s_ {1} ^ {2} +(n_ {2} -1)s_ {2} ^ {2}} {n_ {1} + n_ {2} -2}}}。}
ただし、母集団の効果量θの推定量としてはバイアスがかかっています。それでも、このバイアスは係数を掛けることでおおよそ修正できます
g ∗ = J(n 1 + n 2 − 2)g≈(1 − 3 4(n 1 + n 2)− 9)g {\ displaystyle g ^ {*} = J(n_ {1} + n_ {2} -2)\、\、g \、\ approx \、\ left(1-{\ frac {3} {4(n_ {1} + n_ {2})-9}} \ right)\、 \、g} J(a)=Γ(a / 2)a /2Γ((a − 1)/ 2)。 {\ displaystyle J(a)= {\ frac {\ Gamma(a / 2)} {{\ sqrt {a / 2 \、}} \、\ Gamma((a-1)/ 2)}}。}
Ψ、二乗平均平方根標準化効果編集
多重比較(ANOVAなど)の同様の効果サイズ推定量は、Ψ二乗平均平方根標準化効果です。これは本質的に、dまたはgに類似した二乗平均平方根によって調整されたモデル全体のオムニバス差を示す。一元配置分散分析に適したΨの最も単純な式は、次のとおりです。
Ψ= 1 k − 1⋅∑(x¯j−X¯)2MSエラー{\ displaystyle \ Psi = {\ sqrt {{\ frac {1} {k-1}} \ cdot {\ frac {\ sum({\ bar {x}} _ {j}-{\ bar {X}})^ {2}} {MS _ {\ text {error }}}}}}}
さらに、多因子設計の一般化が提供されています。
meansEditに基づく効果量の分布
分布から効果量の期待値と分散を計算することが可能です。
場合によっては、分散の大きなサンプル近似が使用されます。ヘッジの分散の1つの提案 “不偏推定量は:86
σ^ 2(g ∗)= n 1 + n 2 n 1 n 2 +(g ∗)2 2(n 1 + n 2)。{ \ displaystyle {\ hat {\ sigma}} ^ {2}(g ^ {*})= {\ frac {n_ {1} + n_ {2}} {n_ {1} n_ {2}}} + {\ frac {(g ^ {*})^ {2}} {2(n_ {1} + n_ {2})}}。}
その他のメトリック編集
マハラノビス距離(D)はCohen “sdの多変量一般化。これは、変数間の関係を考慮に入れます。
カテゴリファミリ:カテゴリ変数間の関連付けの効果量編集
φ=χ2N{\ displaystyle \ varphi = {\ sqrt {\ frac {\ chi ^ {2}} {N}}}} |
φ c =χ2N(k − 1){\ displaystyle \ varphi _ {c} = {\ sqrt {\ frac {\ chi ^ {2}} {N(k-1)}}}} |
ファイ(φ) | クラメルのV(φc) |
---|
カイ2乗検定で一般的に使用される関連性の尺度は、ファイ係数とクラメルのV(クラメルのファイと呼ばれることもあり、φcと呼ばれることもあります)です。 。ファイは、ポイント-カイ二乗相関係数とコーエン “sdに関連しており、2つの変数(2×2)間の関係の程度を推定します。 CramérのVは、3つ以上のレベルを持つ変数で使用できます。
Phiは、カイ2乗統計の平方根をサンプルサイズで割って求めることで計算できます。
同様に、CramérのVは、カイ2乗統計の平方根をサンプルサイズと最小次元の長さで割って計算されます(kは行rまたは列cの数の小さい方です)。
φcは2つの離散変数の相互相関であり、rまたはcの任意の値に対して計算できます。ただし、カイ2乗値はセルの数とともに増加する傾向があるため、rとcの差が大きいほど、意味のある相関の強力な証拠がなくてもVが1になる可能性が高くなります。
Cramér ” s Vは、「適合度」カイ2乗モデル(つまり、c = 1のモデル)にも適用できます。この場合、Vは、単一の結果(つまり、k個の結果のうち)への傾向の尺度として機能します。ケース1では、Vの0から1の範囲を維持するために、kにrを使用する必要があります。そうでない場合、cを使用すると、方程式がPhiの方程式になります。
Cohen “s wEdit
カイ2乗検定に使用される効果サイズのもう1つの尺度は、コーエンのwです。これは次のように定義されます。
w = ∑ i = 1 m(p 1 i − p 0 i)2 p 0 i {\ displaystyle w = {\ sqrt {\ sum _ {i = 1} ^ {m} {\ frac {(p_ {1i} -p_ {0i})^ {2}} {p_ {0i}}}}}}
ここで、p0iはH0の下のi番目のセルの値、p1iはH1の下のi番目のセルの値、mはセルの数です。
効果量 | w |
---|---|
小さい | 0.10 |
中 | 0.30 |
大 | 0.50 |
オッズ比編集
オッズ比(OR)は、もう1つの有用な効果量です。研究の疑問が2つのバイナリ変数間の関連度に焦点を当てている場合に適している。例えば、綴りの能力の研究を考えてみよう。対照群では、失敗した生徒1人につき2人の生徒がクラスに合格するため、合格の確率は2対1(または2/1 = 2)である。処置群では、失敗した生徒1人につき6人の学生が合格するため、合格の確率は6対1(または6/1 = 6)である。処置群の合格のオッズが対照群の3倍高いことに注意することで、効果サイズを計算することができる。したがって、オッズ比は3です。オッズ比の統計はコーエンのsdとは異なるスケールであるため、この「3」はコーエンのsdの3とは比較できません。
相対リスク編集
相対リスク(RR)は、リスク比とも呼ばれ、いくつかの独立変数に対するイベントのリスク(確率)です。この効果量の尺度は、オッズ比ではなく確率を比較する点で異なるが、確率が小さい場合は漸近的に後者に近づく。上の例では、対照群と処置群の合格確率はそれぞれ2/3(または0.67)と6/7(0.86)である。効果量は上記と同じように計算することができるが、代わりに確率を使用する。したがって、相対リスクは1.28となる。合格の確率がかなり高いため、相対リスクとオッズ比には大きな違いがあります。失敗(確率が小さい)が(合格ではなく)イベントとして使用された場合、効果量の2つの測定値の差はそれほど大きくありません。
両方の測定値は有用ですが、統計が異なります。を使用します。医学研究では、オッズ比はケースコントロール研究に一般的に使用されます。オッズは通常推定されますが、確率は推定されないためです。相対リスクは、ランダム化された対照試験やコホート研究で一般的に使用されますが、相対リスクは介入の有効性の過大評価に寄与します。
リスク差編集
リスク差(RD)、時々呼ばれる絶対リスク削減は、単に2つのグループ間のイベントのリスク(確率)の差です。実験的介入がイベントやアウトカムの確率をどの程度変化させるかをRDが教えてくれるので、これは実験研究において有用な尺度である。上記の例を使用すると、対照群と治療群の合格確率はそれぞれ2/3(または0.67)と6/7(または0.86)であるため、RD効果量は0.86 − 0.67 = 0.19(または19%)。 RDは、介入の有効性を評価するための優れた指標です。
Cohen “s hEdit
比較時に検出力分析で使用される1つの指標2つの独立した比率はコーエンのhです。これは次のように定義されます
h = 2(arcsinp1−arcsinp2){\ displaystyle h = 2(\ arcsin {\ sqrt {p_ { 1}}}-\ arcsin {\ sqrt {p_ {2}}})}
ここで、p1とp2は、比較される2つのサンプルの比率であり、arcsinはアークサイン変換です。
共通言語の効果サイズ編集
統計の外部の人々に効果サイズの意味をより簡単に説明するために、共通言語の効果サイズは、その名前が示すように、平易な英語で伝えるように設計されました。これは、2つのグループの違いを説明するために使用され、1992年にKennethMcGrawとSPWongによって提案され、名前が付けられました。彼らは次の例を使用しました(男性と女性の身長について): “若い大人のランダムなペアで男性と女性、確率共通言語効果の人口価値を説明するとき、男性が女性より背が高いのは.92であり、簡単に言えば、若い成人の100の盲目の日付のうち92で、男性は女性より背が高いでしょう」サイズ。
一般的な言語効果サイズの母集団値は、母集団からランダムに選択されたペアに関して、このように報告されることがよくあります。 Kerby(2014)は、あるグループのスコアと別のグループのスコアのペアとして定義されるペアは、共通言語の効果量のコアコンセプトであると述べています。
別の例として、科学的研究を考えてみましょう。 (関節炎などの慢性疾患の治療の可能性があります)治療群に10人、対照群に10人。治療群の全員を対照群の全員と比較すると、(10×10 =)100組が存在する。研究の終わりに、結果は各個人のスコアに評価され(たとえば、関節炎研究の場合、可動性と痛みのスケールで)、次にすべてのスコアがペア間で比較されます。その結果、仮説を支持する2組の割合は、共通言語効果の大きさになる。例の研究では、100の比較ペアのうち80が対照群よりも治療群の方が良い結果を示した場合、(たとえば).80になる可能性があり、レポートは次のようになります。治療群を対照群の患者と比較したところ、100ペア中80ペアで、治療を受けた患者はより良い治療結果を示しました。」たとえばこのような研究では、サンプル値は母集団値の偏りのない推定値です。
VarghaとDelaneyは、共通言語の効果サイズ(Vargha-Delaney A)を一般化して、順序レベルのデータをカバーしました。
ランク-バイシリアル相関編集
共通言語の効果サイズに関連する効果サイズは、ランク-バイシリアル相関です。この尺度は、マン-ホイットニーU検定の効果サイズとしてCuretonによって導入されました。つまり、2つのグループがあり、グループのスコアがランクに変換されています。カービーの単純な差の式共通言語の効果量からランクとバイシリアルの相関を計算します。 fを仮説に有利なペアの比率(共通言語効果量)とし、uを不利なペアの比率とすると、ランクバイシリアルrは、2つの比率の単純な差です:r = f −u。言い換えると、相関とは、共通言語効果サイズとその補集合の差である。たとえば、共通言語の効果量が60%の場合、ランクバイシリアルrは60%から40%を引いた値、つまりr = 0.20になります。カービーの公式は方向性があり、正の値は結果が仮説を支持することを示します。
ランク-バイシリアル相関の方向性のない公式は、相関が常に正になるようにウェントによって提供されました。ウェント公式の利点は、公開された論文ですぐに利用できる情報を使用して計算できることです。この式では、マンホイットニーのU検定からのUの検定値と、2つのグループのサンプルサイズ(r = 1 –(2U)/(n1 n2))のみを使用します。ここで、Uは、古典的な定義に従って、データから計算できる2つのU値のうち小さい方として定義されていることに注意してください。これにより、2U < n1n2が保証されます。n1n2はU統計の最大値であるためです。
例では、2つの式の使用法を説明できます。 20人の高齢者を対象とした健康調査を考えてみましょう。10人が治療群、10人が対照群です。したがって、10の10または100のペアが存在する。健康プログラムは、食事療法、運動、およびサプリメントを使用して記憶を改善し、記憶は標準化されたテストによって測定されます。マン・ホイットニーU検定は、治療群の成人が100組のうち70組でより良い記憶を持っており、30組でより悪い記憶を持っていたことを示している。マン・ホイットニーUは70と30よりも小さいためU = 30となる。ウェント式による相関は、r = 1 −(2・30)/(10・10)= 0.40です。
順序データの効果量編集
クリフのデルタまたはd {\ displaystyle d}は、元々、順序データで使用するためにNorman Cliffによって開発されたもので、1つの分布の値が2番目の分布の値よりも大きい頻度の尺度です。重要なのは、形状や2つの分布の広がり。
サンプル推定値d {\ displaystyled}は次の式で与えられます。
d = ∑ i、j − mn {\ displaystyle d = {\ frac {\ sum _ {i、j}-} {mn}}}
d {\ displaystyle d}は、マンホイットニーのU統計に線形に関連していますが、符号の違いの方向をキャプチャします。マンホイットニーを考えるとU {\ displaystyle U}、d {\ displaystyled}は次のとおりです。
d = 2 U mn − 1 {\ displaystyle d = {\ frac {2U} {mn}}-1}