Eenvoudige lineaire regressie

Beschouw de modelfunctie

y = α + β x, {\ displaystyle y = \ alpha + \ beta x,}

die een lijn met een helling beschrijft β en y-snijpunt α. In het algemeen geldt een dergelijke relatie misschien niet precies voor de grotendeels niet waargenomen populatie van waarden van de onafhankelijke en afhankelijke variabelen; we noemen de niet-waargenomen afwijkingen van de bovenstaande vergelijking de fouten. Stel dat we n dataparen observeren en ze {(xi, yi), i = 1, …, n} noemen. We kunnen de onderliggende relatie tussen yi en xi met betrekking tot deze foutterm εi beschrijven door

y i = α + β x i + ε i. {\ displaystyle y_ {i} = \ alpha + \ beta x_ {i} + \ varepsilon _ {i}.}

Deze relatie tussen de echte (maar niet waargenomen) onderliggende parameters α en β en de datapunten wordt een lineair regressiemodel.

ε ^ i = yi – α – β xi. {\ displaystyle {\ widehat {\ varepsilon}} _ {i} = y_ {i} – \ alpha – \ beta x_ {i}.} Vind min α, β Q (α, β), voor Q (α, β ) = ∑ ik = 1 n ε ^ ik 2 = ∑ ik = 1 n (yi – α – β xi) 2. {\ displaystyle {\ text {Find}} \ min _ {\ alpha, \, \ beta} Q (\ alpha, \ beta), \ quad {\ text {for}} Q (\ alpha, \ beta) = \ som _ {i = 1} ^ {n} {\ widehat {\ varepsilon}} _ {i} ^ {\, 2} = \ som _ {i = 1} ^ {n} (y_ {i} – \ alpha – \ beta x_ {i}) ^ {2} \.} α ^ = y ¯ – (β ^ x ¯), β ^ = ∑ i = 1 n (xi – x ¯) (yi – y ¯) ∑ i = 1 n (xi – x ¯) 2 = sx, ysx 2 = rxysysx. {\ textstyle {\ begin {uitgelijnd} {\ widehat {\ alpha}} & = {\ bar {y}} – ({\ widehat {\ beta}} \, { \ bar {x}}), \\ {\ widehat {\ beta}} & = {\ frac {\ sum _ {i = 1} ^ {n} (x_ { i} – {\ bar {x}}) (y_ {i} – {\ bar {y}})} {\ som _ {i = 1} ^ {n} (x_ {i} – {\ bar {x }}) ^ {2}}} \\ & = {\ frac {s_ {x, y}} {s_ {x} ^ {2}}} \\ & = r_ {xy} {\ frac {s_ {y}} {s_ {x}}}. \\\ end {uitgelijnd}}}

Hier hebben we

De bovenstaande uitdrukkingen vervangen door α ^ {\ displaystyle {\ widehat {\ alpha}}} en β ^ {\ displaystyle {\ widehat {\ beta}}} in

f = α ^ + β ^ x, {\ displaystyle f = {\ widehat {\ alpha}} + {\ widehat {\ beta}} x,}

geeft

f – y ¯ sy = rxyx – x ¯ sx. {\ displaystyle {\ frac {f – {\ balk {y}}} {s_ {y}}} = r_ {xy} {\ frac {x – {\ balk {x}}} {s_ {x}}} .}

Dit toont aan dat rxy de helling is van de regressielijn van de gestandaardiseerde datapunten (en dat deze lijn door de oorsprong loopt).

Generaliseren van de x ¯ {\ displaystyle {\ bar { x}}} notatie, kunnen we een horizontale balk over een uitdrukking schrijven om de gemiddelde waarde van die uitdrukking over de reeks samples aan te geven. Bijvoorbeeld:

x y ¯ = 1 n ∑ i = 1 n x i y i. {\ displaystyle {\ overline {xy}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} y_ {i}.}

Met deze notatie kunnen we een beknopte formule voor rxy:

rxy = xy ¯ – x ¯ y ¯ (x 2 ¯ – x ¯ 2) (y 2 ¯ – y ¯ 2). {\ displaystyle r_ {xy} = {\ frac {{\ overline {xy}} – {\ bar {x}} {\ bar {y}}} {\ sqrt {\ left ({\ overline {x ^ {2 }}} – {\ balk {x}} ^ {2} \ right) \ left ({\ overline {y ^ {2}}} – {\ balk {y}} ^ {2} \ right)}}} .}

De determinatiecoëfficiënt (“R kwadraat”) is gelijk aan rxy 2 {\ displaystyle r_ {xy} ^ {2}} wanneer het model lineair is met een enkele onafhankelijke variabele. Zie voorbeeld correlatiecoëfficiënt voor meer details.

Intuïtieve uitleg Bewerken

β ^ = ∑ i = 1 n (xi – x ¯) (yi – y ¯) ∑ i = 1 n (xi – x ¯) 2 = ∑ i = 1 n (xi – x ¯) 2 ∗ (yi – y ¯) (xi – x ¯) ∑ i = 1 n (xi – x ¯) 2 {\ displaystyle {\ begin {uitgelijnd} {\ widehat {\ beta}} & = {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}} ) (y_ {i} – {\ bar {y}})} {\ som _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}}) ^ {2}}} = {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}}) ^ {2} * {\ frac {(y_ {i} – {\ bar {y }})} {(x_ {i} – {\ bar {x}})}}} {\ som _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}}) ^ {2}}} \\\ einde {uitgelijnd}}} α ^ = y ¯ – β ^ x ¯, {\ displaystyle {\ begin {uitgelijnd} {\ widehat {\ alpha}} & = {\ bar {y}} – {\ widehat {\ beta}} \, {\ bar {x}}, \\\ end {uitgelijnd}}}

Eenvoudige lineaire regressie zonder de onderscheppingsterm (enkele regressor) Bewerken

Soms is het gepast om de regressielijn te dwingen door de oorsprong te gaan, omdat wordt aangenomen dat x en y proportioneel zijn.Voor het model zonder de interceptterm, y = βx, vereenvoudigt de OLS-schatter voor β tot

β ^ = ∑ i = 1 nxiyi ∑ i = 1 nxi 2 = xy ¯ x 2 ¯ {\ displaystyle {\ widehat { \ beta}} = {\ frac {\ sum _ {i = 1} ^ {n} x_ {i} y_ {i}} {\ sum _ {i = 1} ^ {n} x_ {i} ^ {2 }}} = {\ frac {\ overline {xy}} {\ overline {x ^ {2}}}}}

Vervanging van (x – h, y – k) in plaats van (x, y) geeft de regressie door (h, k):

β ^ = (x – h) (y – k) ¯ (x – h) 2 ¯ = xy ¯ – kx ¯ – hy ¯ + hkx 2 ¯ – 2 hx ¯ + h 2 = xy ¯ – x ¯ y ¯ + (x ¯ – h) (y ¯ – k) x 2 ¯ – x ¯ 2 + (x ¯ – h) 2 = Cov ⁡ (x, y) + (x ¯ – h) (y ¯ – k) Var ⁡ (x) + (x ¯ – h) 2, {\ displaystyle {\ begin {uitgelijnd} {\ widehat {\ beta}} & = {\ frac {\ overline {(xh) (yk)}} {\ overline {(xh) ^ {2}}}} \\ & = {\ frac {{\ overline {xy}} – k {\ bar {x}} – h {\ bar {y}} + hk} {{\ overline {x ^ {2}}} – 2h {\ bar {x} } + h ^ {2}}} \\ & = {\ frac {{\ overline {xy}} – {\ balk {x}} {\ balk {y}} + ({\ bar {x}} – h) ({\ bar {y}} – k)} {{\ overline {x ^ {2} }} – {\ bar {x}} ^ {2} + ({\ bar {x}} – h) ^ {2}}} \\ & = {\ frac {\ operatornaam {Cov} (x, y) + ({\ bar {x}} – h) ({\ bar {y}} – k)} {\ operatornaam {Var} (x) + ({\ bar { x}} – h) ^ {2}}}, \ end {align}}}

waarbij Cov en Var verwijzen naar de covariantie en variantie van de steekproefgegevens (niet gecorrigeerd voor bias).

Het laatste formulier hierboven laat zien hoe het verplaatsen van de lijn weg van het massamiddelpunt van de gegevenspunten de helling beïnvloedt.

Write a Comment

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *