모델 함수 고려
y = α + β x, {\ displaystyle y = \ alpha + \ beta x,}
경사 선이있는 선을 설명합니다. β와 y 절편 α. 일반적으로 이러한 관계는 거의 관찰되지 않은 독립 변수와 종속 변수 값의 모집단에 대해 정확히 유지되지 않을 수 있습니다. 위 방정식에서 관찰되지 않은 편차를 오류라고합니다. n 개의 데이터 쌍을 관찰하고이를 {(xi, yi), i = 1, …, n}이라고 가정합니다. 우리는이 오차항 εi를 포함하는 yi와 xi 사이의 기본 관계를 다음과 같이 설명 할 수 있습니다.
y i = α + β x i + ε i. {\ displaystyle y_ {i} = \ alpha + \ beta x_ {i} + \ varepsilon _ {i}.}
참 (그러나 관찰되지 않은) 기본 매개 변수 α와 β와 데이터 포인트 간의이 관계를 a 선형 회귀 모델.
ε ^ i = yi − α − β xi. {\ displaystyle {\ widehat {\ varepsilon}} _ {i} = y_ {i}-\ alpha-\ beta x_ {i}.} 최소 α, β Q (α, β), for Q (α, β ) = ∑ i = 1n ε ^ i 2 = ∑ i = 1n (yi − α − β xi) 2. {\ displaystyle {\ text {찾기}} \ min _ {\ alpha, \, \ beta} Q (\ alpha, \ beta), \ quad {\ text {for}} Q (\ alpha, \ beta) = \ 합계 _ {i = 1} ^ {n} {\ widehat {\ varepsilon}} _ {i} ^ {\, 2} = \ sum _ {i = 1} ^ {n} (y_ {i}-\ alpha -\ beta x_ {i}) ^ {2} \.} α ^ = y ¯ − (β ^ x ¯), β ^ = ∑ i = 1n (xi − x ¯) (yi − y ¯) ∑ i = 1n (xi − x ¯) 2 = sx, ysx 2 = rxysysx. {\ textstyle {\ begin {aligned} {\ widehat {\ alpha}} & = {\ bar {y}}-({\ widehat {\ beta}} \, { \ bar {x}}), \\ {\ widehat {\ beta}} & = {\ frac {\ sum _ {i = 1} ^ {n} (x_ { i}-{\ bar {x}}) (y_ {i}-{\ bar {y}})} {\ sum _ {i = 1} ^ {n} (x_ {i}-{\ bar {x }}) ^ {2}}} \\ & = {\ frac {s_ {x, y}} {s_ {x} ^ {2}}} \\ & = r_ {xy} {\ frac {s_ {y}} {s_ {x}}}. \\\ end {aligned}}}
여기에서 소개했습니다
p>
α ^ {\ displaystyle {\ widehat {\ alpha}}} 및 β ^ {\ displaystyle {\ widehat {\ beta}}}에 대한 위의 표현식을
f = α ^ + β로 대체 ^ x, {\ displaystyle f = {\ widehat {\ alpha}} + {\ widehat {\ beta}} x,}
수익률
f − y ¯ sy = rxyx − x ¯ sx. {\ displaystyle {\ frac {f-{\ bar {y}}} {s_ {y}}} = r_ {xy} {\ frac {x-{\ bar {x}}} {s_ {x}}} .}
이것은 rxy가 표준화 된 데이터 포인트의 회귀선 기울기 (그리고이 선이 원점을 통과 함)임을 보여줍니다.
x 일반화 ¯ {\ displaystyle {\ bar { x}}} 표기법을 사용하면 표현식 위에 가로 막대를 작성하여 샘플 세트에 대한 해당 표현식의 평균 값을 나타낼 수 있습니다. 예 :
x y ¯ = 1n ∑ i = 1n x i y i. {\ displaystyle {\ overline {xy}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} y_ {i}.}
이 표기법을 사용하면 rxy에 대한 간결한 공식 :
rxy = xy ¯ − x ¯ y ¯ (x 2 ¯ − x ¯ 2) (y 2 ¯ − y ¯ 2). {\ displaystyle r_ {xy} = {\ frac {{\ overline {xy}}-{\ bar {x}} {\ bar {y}}} {\ sqrt {\ left ({\ overline {x ^ {2 }}}-{\ bar {x}} ^ {2} \ right) \ left ({\ overline {y ^ {2}}}-{\ bar {y}} ^ {2} \ right)}}} .}
결정 계수 ( “R 제곱”)는 모델이 단일 독립 변수로 선형 일 때 rxy 2 {\ displaystyle r_ {xy} ^ {2}}와 같습니다. 자세한 내용은 샘플 상관 계수를 참조하십시오.
직관적 인 설명 편집
β ^ = ∑ i = 1 n (xi − x ¯) (yi − y ¯) ∑ i = 1n (xi − x ¯) 2 = ∑ i = 1n (xi − x ¯) 2 ∗ (yi − y ¯) (xi − x ¯) ∑ i = 1n (xi − x ¯) 2 {\ displaystyle {\ begin {aligned} {\ widehat {\ beta}} & = {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i}-{\ bar {x}} ) (y_ {i}-{\ bar {y}})} {\ sum _ {i = 1} ^ {n} (x_ {i}-{\ bar {x}}) ^ {2}}} = {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i}-{\ bar {x}}) ^ {2} * {\ frac {(y_ {i}-{\ bar {y }})} {(x_ {i}-{\ bar {x}})}}} {\ sum _ {i = 1} ^ {n} (x_ {i}-{\ bar {x}}) ^ {2}}} \\\ end {aligned}}} α ^ = y ¯ − β ^ x ¯, {\ displaystyle {\ begin {aligned} {\ widehat {\ alpha}} & = {\ bar {y}}-{\ widehat {\ beta}} \, {\ bar {x}}, \\\ end {aligned}}}
절편 항이없는 단순 선형 회귀 (단일 회귀 분석기) 편집
x와 y가 비례한다고 가정하기 때문에 회귀선이 원점을 통과하도록 강제하는 것이 적절할 때가 있습니다.절편 항이없는 모델 y = βx의 경우 β에 대한 OLS 추정량은 다음과 같이 단순화됩니다.
β ^ = ∑ i = 1 nxiyi ∑ i = 1 nxi 2 = xy ¯ x 2 ¯ {\ displaystyle {\ widehat { \ beta}} = {\ frac {\ sum _ {i = 1} ^ {n} x_ {i} y_ {i}} {\ sum _ {i = 1} ^ {n} x_ {i} ^ {2 }}} = {\ frac {\ overline {xy}} {\ overline {x ^ {2}}}}}
(x, y) 대신 (x − h, y − k)를 대체하면 (h, k)를 통한 회귀 :
β ^ = (x − h) (y − k) ¯ (x − h) 2 ¯ = xy ¯ − kx ¯ − hy ¯ + hkx 2 ¯ − 2 hx ¯ + h 2 = xy ¯ − x ¯ y ¯ + (x ¯ − h) (y ¯ − k) x 2 ¯ − x ¯ 2 + (x ¯ − h) 2 = Cov (x, y) + (x ¯ − h) (y ¯ − k) Var (x) + (x ¯ − h) 2, {\ displaystyle {\ begin {aligned} {\ widehat {\ beta}} & = {\ frac {\ overline {(xh) (yk)}} {\ overline {(xh) ^ {2}}}} \\ & = {\ frac {{\ overline {xy}}-k {\ bar {x}}-h {\ bar {y}} + hk} {{\ overline {x ^ {2}}}-2h {\ bar {x} } + h ^ {2}}} \\ & = {\ frac {{\ overline {xy}}-{\ bar {x}} {\ bar {y}} + ({\ bar {x}}-h) ({\ bar {y}}-k)} {{\ overline {x ^ {2} }}-{\ bar {x}} ^ {2} + ({\ bar {x}}-h) ^ {2}}} \\ & = {\ frac {\ operatorname {Cov} (x, y) + ({\ bar {x}}-h) ({\ bar {y}}-k)} {\ operatorname {Var} (x) + ({\ bar { x}}-h) ^ {2}}}, \ end {aligned}}}
여기서 Cov 및 Var은 표본 데이터의 공분산 및 분산을 나타냅니다 (편향에 대해 수정되지 않음).
위의 마지막 양식은 데이터 포인트의 질량 중심에서 멀리 떨어진 선이 기울기에 미치는 영향을 보여줍니다.