Regresie liniară simplă

Luați în considerare funcția modelului

y = α + β x, {\ displaystyle y = \ alpha + \ beta x,}

care descrie o linie cu pantă β și y-interceptează α. În general, o astfel de relație s-ar putea să nu fie exact pentru populația în mare parte neobservată a valorilor variabilelor independente și dependente; numim abaterile neobservate de la ecuația de mai sus erori. Să presupunem că observăm n perechi de date și le numim {(xi, yi), i = 1, …, n}. Putem descrie relația de bază dintre yi și xi care implică acest termen de eroare εi prin

y i = α + β x i + ε i. {\ displaystyle y_ {i} = \ alpha + \ beta x_ {i} + \ varepsilon _ {i}.}

Această relație dintre parametrii subiacenți adevărați (dar neobservați) α și β și punctele de date se numește model de regresie liniară.

ε ^ i = yi – α – β xi. {\ displaystyle {\ widehat {\ varepsilon}} _ {i} = y_ {i} – \ alpha – \ beta x_ {i}. Găsiți min α, β Q (α, β), pentru Q (α, β ) = ∑ i = 1 n ε ^ i 2 = ∑ i = 1 n (yi – α – β xi) 2. {\ displaystyle {\ text {Find}} \ min _ {\ alpha, \, \ beta} Q (\ alpha, \ beta), \ quad {\ text {for}} Q (\ alpha, \ beta) = \ sum _ {i = 1} ^ {n} {\ widehat {\ varepsilon}} _ {i} ^ {\, 2} = \ sum _ {i = 1} ^ {n} (y_ {i} – \ alpha – \ beta x_ {i}) ^ {2} \.} α ^ = y ¯ – (β ^ x ¯), β ^ = ∑ i = 1 n (xi – x ¯) (yi – y ¯) ∑ i = 1 n (xi – x ¯) 2 = sx, ysx 2 = rxysysx. {\ textstyle {\ begin {align} {\ widehat {\ alpha}} & = {\ bar {y}} – ({\ widehat {\ beta}} \, { \ bar {x}}), \\ {\ widehat {\ beta}} & = {\ frac {\ sum _ {i = 1} ^ {n} (x_ { i} – {\ bar {x}}) (y_ {i} – {\ bar {y}})} {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x }}) ^ {2}}} \\ & = {\ frac {s_ {x, y}} {s_ {x} ^ {2}}} \\ & = r_ {xy} {\ frac {s_ {y}} {s_ {x}}}. \\\ end {align}}}

Aici am introdus

Înlocuirea expresiilor de mai sus cu α ^ {\ displaystyle {\ widehat {\ alpha}}} și β ^ {\ displaystyle {\ widehat {\ beta}}} în

f = α ^ + β ^ x, {\ displaystyle f = {\ widehat {\ alpha}} + {\ widehat {\ beta}} x,}

produce

f – y ¯ sy = rxyx – x ¯ sx. {\ displaystyle {\ frac {f – {\ bar {y}}} {s_ {y}}} = r_ {xy} {\ frac {x – {\ bar {x}}} {s_ {x}}} .}

Aceasta arată că rxy este panta liniei de regresie a punctelor de date standardizate (și că această linie trece prin origine).

Generalizarea x ¯ {\ displaystyle {\ bar { notare x}}}, putem scrie o bară orizontală peste o expresie pentru a indica valoarea medie a acelei expresii peste setul de eșantioane. De exemplu:

x y ¯ = 1 n ∑ i = 1 n x i y i. {\ displaystyle {\ overline {xy}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} y_ {i}.}

Această notație ne permite o formulă concisă pentru rxy:

rxy = xy ¯ – x ¯ y ¯ (x 2 ¯ – x ¯ 2) (y 2 ¯ – y ¯ 2). {\ displaystyle r_ {xy} = {\ frac {{\ overline {xy}} – {\ bar {x}} {\ bar {y}}} {\ sqrt {\ left ({\ overline {x ^ {2 }}} – {\ bar {x}} ^ {2} \ right) \ left ({\ overline {y ^ {2}}} – {\ bar {y}} ^ {2} \ right)}}} .}

Coeficientul de determinare („R pătrat”) este egal cu rxy 2 {\ displaystyle r_ {xy} ^ {2}} atunci când modelul este liniar cu o singură variabilă independentă. Consultați coeficientul de corelație a eșantionului pentru detalii suplimentare.

Explicație intuitivă Editați

β ^ = ∑ i = 1 n (xi – x ¯) (yi – y ¯) ∑ i = 1 n (xi – x ¯) 2 = ∑ i = 1 n (xi – x ¯) 2 ∗ (yi – y ¯) (xi – x ¯) ∑ i = 1 n (xi – x ¯) 2 {\ displaystyle {\ begin {align} {\ widehat {\ beta}} & = {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}} ) (y_ {i} – {\ bar {y}})} {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}}) ^ {2}}} = {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}}) ^ {2} * {\ frac {(y_ {i} – {\ bar {y }})} {(x_ {i} – {\ bar {x}})}}} {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}}) ^ {2}}} \\\ end {align}}} α ^ = y ¯ – β ^ x ¯, {\ displaystyle {\ begin {align} {\ widehat {\ alpha}} & = {\ bar {y}} – {\ widehat {\ beta}} \, {\ bar {x}}, \\\ end {align}}}

Regresie liniară simplă fără termenul de interceptare (regresor unic) Edit

Uneori este adecvat să forțezi linia de regresie să treacă prin origine, deoarece se presupune că x și y sunt proporționale.Pentru modelul fără termenul de interceptare, y = βx, estimatorul OLS pentru β simplifică la

β ^ = ∑ i = 1 nxiyi ∑ i = 1 nxi 2 = xy ¯ x 2 ¯ {\ displaystyle {\ widehat { \ beta}} = {\ frac {\ sum _ {i = 1} ^ {n} x_ {i} y_ {i}} {\ sum _ {i = 1} ^ {n} x_ {i} ^ {2 }}} = {\ frac {\ overline {xy}} {\ overline {x ^ {2}}}}}

Înlocuirea (x – h, y – k) în locul lui (x, y) dă regresie prin (h, k):

β ^ = (x – h) (y – k) ¯ (x – h) 2 ¯ = xy ¯ – kx ¯ – hy ¯ + hkx 2 ¯ – 2 hx ¯ + h 2 = xy ¯ – x ¯ y ¯ + (x ¯ – h) (y ¯ – k) x 2 ¯ – x ¯ 2 + (x ¯ – h) 2 = Cov ⁡ (x, y) + (x ¯ – h) (y ¯ – k) Var ⁡ (x) + (x ¯ – h) 2, {\ displaystyle {\ begin {align} {\ widehat {\ beta}} & = {\ frac {\ overline {(xh) (yk)}} {\ overline {(xh) ^ {2}}}} \\ & = {\ frac {{\ overline {xy}} – k {\ bar {x}} – h {\ bar {y}} + hk} {{\ overline {x ^ {2}}} – 2h {\ bar {x} } + h ^ {2}}} \\ & = {\ frac {{\ overline {xy}} – {\ bar {x}} {\ bar {y}} + ({\ bar {x}} – h) ({\ bar {y}} – k)} {{\ overline {x ^ {2} }} – {\ bar {x}} ^ {2} + ({\ bar {x}} – h) ^ {2}}} \\ & = {\ frac {\ operatorname {Cov} (x, y) + ({\ bar {x}} – h) ({\ bar {y}} – k)} {\ operatorname {Var} (x) + ({\ bar { x}} – h) ^ {2}}}, \ end {align}}}

unde Cov și Var se referă la covarianța și varianța datelor eșantionului (necorectate pentru părtinire).

Ultima formă de mai sus demonstrează modul în care îndepărtarea liniei de centrul de masă al punctelor de date afectează panta.

Write a Comment

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *