モデル関数を検討する
y =α+βx、{\ displaystyle y = \ alpha + \ beta x、}
勾配のある線を表すβおよびy切片α。一般に、このような関係は、独立変数と従属変数の値のほとんど観測されていない母集団には正確に当てはまらない可能性があります。上記の方程式からの観測されていない偏差をエラーと呼びます。 n個のデータペアを観察し、それらを{(xi、yi)、i = 1、…、n}と呼ぶとします。この誤差項εiを含むyiとxiの間の基本的な関係は、
y i =α+βxi+εiで表すことができます。 {\ displaystyle y_ {i} = \ alpha + \ beta x_ {i} + \ varepsilon _ {i}。}
真の(ただし観測されていない)基礎となるパラメーターαおよびβとデータポイントの間のこの関係は、線形回帰モデル。
ε^ i = yi −α−βxi。 {\ displaystyle {\ widehat {\ varepsilon}} _ {i} = y_ {i}-\ alpha- \ beta x_ {i}。} Q(α、β)の最小α、βQ(α、β)を見つけます)= ∑ i =1nε^ i 2 = ∑ i = 1 n(yi −α−βxi)2。 {\ displaystyle {\ text {Find}} \ min _ {\ alpha、\、\ beta} Q(\ alpha、\ beta)、\ quad {\ text {for}} Q(\ alpha、\ beta)= \ sum _ {i = 1} ^ {n} {\ widehat {\ varepsilon}} _ {i} ^ {\、2} = \ sum _ {i = 1} ^ {n}(y_ {i}-\ alpha -\ beta x_ {i})^ {2} \。}α^ = y¯−(β^x¯)、β^ = ∑ i = 1 n(xi −x¯)(yi −y¯)∑ i = 1 n(xi −x¯)2 = sx、ysx 2 = rxysysx。 {\ textstyle {\ begin {aligned} {\ widehat {\ alpha}} & = {\ bar {y}}-({\ widehat {\ beta}} \、{ \ bar {x}})、\\ {\ widehat {\ beta}} & = {\ frac {\ sum _ {i = 1} ^ {n}(x_ { i}-{\ bar {x}})(y_ {i}-{\ bar {y}})} {\ sum _ {i = 1} ^ {n}(x_ {i}-{\ bar {x }})^ {2}}} \\ & = {\ frac {s_ {x、y}} {s_ {x} ^ {2}}} \\ & = r_ {xy} {\ frac {s_ {y}} {s_ {x}}}。\\\ end {aligned}}}
ここで紹介しました
上記の式をα^ {\ displaystyle {\ widehat {\ alpha}}}およびβ^ {\ displaystyle {\ widehat {\ beta}}}に置き換えて
f =α^ +β ^ x、{\ displaystyle f = {\ widehat {\ alpha}} + {\ widehat {\ beta}} x、}
歩留まり
f −y¯sy = rxyx −x¯sx。 {\ displaystyle {\ frac {f-{\ bar {y}}} {s_ {y}}} = r_ {xy} {\ frac {x-{\ bar {x}}} {s_ {x}}} 。}
これは、rxyが標準化されたデータポイントの回帰直線の傾きであることを示しています(そしてこの直線が原点を通過していることを示しています)。
xを一般化する¯{\ displaystyle {\ bar { x}}}表記では、式の上に水平バーを記述して、サンプルのセット全体でのその式の平均値を示すことができます。例:
xy¯= 1 n ∑ i = 1 n x i yi。 {\ displaystyle {\ overline {xy}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} y_ {i}。}
この表記により、 rxyの簡潔な式:
rxy = xy¯−x¯y¯(x 2¯−x¯2)(y 2¯−y¯2)。 {\ displaystyle r_ {xy} = {\ frac {{\ overline {xy}}-{\ bar {x}} {\ bar {y}}} {\ sqrt {\ left({\ overline {x ^ {2 }}}-{\ bar {x}} ^ {2} \ right)\ left({\ overline {y ^ {2}}}-{\ bar {y}} ^ {2} \ right)}}} 。}
モデルが単一の独立変数で線形である場合、決定係数( “R squared”)はrxy 2 {\ displaystyle r_ {xy} ^ {2}}に等しくなります。詳細については、サンプルの相関係数を参照してください。
直感的な説明編集
β^ = ∑ i = 1 n(xi −x¯)(yi −y¯)∑ i = 1 n(xi − x ¯)2 = ∑ i = 1 n(xi −x¯)2 ∗(yi −y¯)(xi −x¯)∑ i = 1 n(xi −x¯)2 {\ displaystyle {\ begin {aligned} {\ widehat {\ beta}} & = {\ frac {\ sum _ {i = 1} ^ {n}(x_ {i}-{\ bar {x}} )(y_ {i}-{\ bar {y}})} {\ sum _ {i = 1} ^ {n}(x_ {i}-{\ bar {x}})^ {2}}} = {\ frac {\ sum _ {i = 1} ^ {n}(x_ {i}-{\ bar {x}})^ {2} * {\ frac {(y_ {i}-{\ bar {y }})} {(x_ {i}-{\ bar {x}})}}} {\ sum _ {i = 1} ^ {n}(x_ {i}-{\ bar {x}})^ {2}}} \\\ end {aligned}}}α^ = y¯−β ^x¯、{\ displaystyle {\ begin {aligned} {\ widehat {\ alpha}} & = {\ bar {y}}-{\ widehat {\ beta}} \、{\ bar {x}}、\\\ end {aligned}}}
切片項のない単純な線形回帰(単一回帰分析)編集
xとyは比例すると想定されるため、回帰直線を強制的に原点を通過させることが適切な場合があります。切片項のないモデルy =βxの場合、βのOLS推定器は次のように単純化されます
β^ = ∑ i = 1 nxiyi ∑ i = 1 nxi 2 =xy¯x2¯{\ displaystyle {\ widehat { \ beta}} = {\ frac {\ sum _ {i = 1} ^ {n} x_ {i} y_ {i}} {\ sum _ {i = 1} ^ {n} x_ {i} ^ {2 }}} = {\ frac {\ overline {xy}} {\ overline {x ^ {2}}}}}
(x、y)の代わりに(x − h、y − k)を代入すると、 (h、k)による回帰:
β^ =(x − h)(y − k)¯(x − h)2¯= xy¯− kx¯−hy¯ + hkx 2¯−2hx¯ + h 2 = xy¯−x¯y¯ +(x¯− h)(y¯− k)x 2¯−x¯2 +(x¯− h)2 =Cov(x、y)+(x ¯− h)(y¯− k)Var(x)+(x¯− h)2、{\ displaystyle {\ begin {aligned} {\ widehat {\ beta}} & = {\ frac {\ overline {(xh)(yk)}} {\ overline {(xh)^ {2}}}} \\ & = {\ frac {{\ overline {xy}}-k {\ bar {x}}-h {\ bar {y}} + hk} {{\ overline {x ^ {2}}}-2h {\ bar {x} } + h ^ {2}}} \\ & = {\ frac {{\ overline {xy}}-{\ bar {x}} {\ bar {y}} +({\ bar {x}}-h)({\ bar {y}}-k)} {{\ overline {x ^ {2} }}-{\ bar {x}} ^ {2} +({\ bar {x}}-h)^ {2}}} \\ & = {\ frac {\ operatorname {Cov}(x、y)+({\ bar {x}}-h)({\ bar {y}}-k)} {\ operatorname {Var}(x)+({\ bar { x}}-h)^ {2}}}、\ end {aligned}}}
ここで、CovとVarは、サンプルデータの共分散と分散を示します(バイアスは補正されていません)。
上記の最後の形式は、データポイントの重心から線を遠ざけることが勾配にどのように影響するかを示しています。