Enkel lineær regression

Overvej modelfunktionen

y = α + β x, {\ displaystyle y = \ alpha + \ beta x,}

som beskriver en linje med hældning β og y-skærer α. Generelt er et sådant forhold muligvis ikke nøjagtigt for den stort set uobserverede population af værdier af de uafhængige og afhængige variabler; vi kalder de ikke observerede afvigelser fra ovenstående ligning for fejlene. Antag, at vi observerer n datapar og kalder dem {(xi, yi), i = 1, …, n}. Vi kan beskrive det underliggende forhold mellem yi og xi, der involverer denne fejlbetegnelse εi ved

y i = α + β x i + ε i. {\ displaystyle y_ {i} = \ alpha + \ beta x_ {i} + \ varepsilon _ {i}.}

Dette forhold mellem de sande (men ikke observerede) underliggende parametre α og β og datapunkterne kaldes en lineær regressionsmodel.

ε ^ i = yi – α – β xi. {\ displaystyle {\ widehat {\ varepsilon}} _ {i} = y_ {i} – \ alpha – \ beta x_ {i}.} Find min α, β Q (α, β), for Q (α, β ) = ∑ i = 1 n ε ^ i 2 = ∑ i = 1 n (yi – α – β xi) 2. {\ displaystyle {\ text {Find}} \ min _ {\ alpha, \, \ beta} Q (\ alpha, \ beta), \ quad {\ text {for}} Q (\ alpha, \ beta) = \ sum _ {i = 1} ^ {n} {\ widehat {\ varepsilon}} _ {i} ^ {\, 2} = \ sum _ {i = 1} ^ {n} (y_ {i} – \ alpha – \ beta x_ {i}) ^ {2} \.} α ^ = y ¯ – (β ^ x ¯), β ^ = ∑ i = 1 n (xi – x ¯) (yi – y ¯) ∑ i = 1 n (xi – x ¯) 2 = sx, ysx 2 = rxysysx. {\ textstyle {\ begin {align} {\ widehat {\ alpha}} & = {\ bar {y}} – ({\ widehat {\ beta}} \, { \ bar {x}}), \\ {\ widehat {\ beta}} & = {\ frac {\ sum _ {i = 1} ^ {n} (x_ { i} – {\ bar {x}}) (y_ {i} – {\ bar {y}})} {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x }}) ^ {2}}} \\ & = {\ frac {s_ {x, y}} {s_ {x} ^ {2}}} \\ & = r_ {xy} {\ frac {s_ {y}} {s_ {x}}}. \\\ end {align}}}

Her har vi introduceret

Udskiftning af ovenstående udtryk for α ^ {\ displaystyle {\ widehat {\ alpha}}} og β ^ {\ displaystyle {\ widehat {\ beta}}} i

f = α ^ + β ^ x, {\ displaystyle f = {\ widehat {\ alpha}} + {\ widehat {\ beta}} x,}

giver

f – y ¯ sy = rxyx – x ¯ sx. {\ displaystyle {\ frac {f – {\ bar {y}}} {s_ {y}}} = r_ {xy} {\ frac {x – {\ bar {x}}} {s_ {x}}} .}

Dette viser, at rxy er hældningen på regressionslinjen for de standardiserede datapunkter (og at denne linje passerer gennem oprindelsen).

Generalisering af x ¯ {\ displaystyle {\ bar { x}}} notation, kan vi skrive en vandret bjælke over et udtryk for at angive den gennemsnitlige værdi af dette udtryk over sæt af prøver. For eksempel:

x y ¯ = 1 n ∑ i = 1 n x i y i. {\ displaystyle {\ overline {xy}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} y_ {i}.}

Denne notation tillader os en kortfattet formel for rxy:

rxy = xy ¯ – x ¯ y ¯ (x 2 ¯ – x ¯ 2) (y 2 ¯ – y ¯ 2). {\ displaystyle r_ {xy} = {\ frac {{\ overline {xy}} – {\ bar {x}} {\ bar {y}}} {\ sqrt {\ left ({\ overline {x ^ {2) }}} – {\ bar {x}} ^ {2} \ højre) \ venstre ({\ overline {y ^ {2}}} – {\ bar {y}} ^ {2} \ højre)}} .}

Bestemmelseskoefficienten (“R kvadrat”) er lig med rxy 2 {\ displaystyle r_ {xy} ^ {2}}, når modellen er lineær med en enkelt uafhængig variabel. Se eksemplets korrelationskoefficient for yderligere detaljer.

Intuitiv forklaring Rediger

β ^ = ∑ i = 1 n (xi – x ¯) (yi – y ¯) ∑ i = 1 n (xi – x ¯) 2 = ∑ i = 1 n (xi – x ¯) 2 ∗ (yi – y ¯) (xi – x ¯) ∑ i = 1 n (xi – x ¯) 2 {\ displaystyle {\ begin {justeret} {\ widehat {\ beta}} & = {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}} ) (y_ {i} – {\ bar {y}})} {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}}) ^ {2}}} = {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}}) ^ {2} * {\ frac {(y_ {i} – {\ bar {y }})} {(x_ {i} – {\ bar {x}})}}} {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}}) ^ {2}}} \\\ ende {justeret}}} α ^ = y ¯ – β ^ x ¯, {\ displaystyle {\ begin {justeret} {\ widehat {\ alpha}} & = {\ bar {y}} – {\ widehat {\ beta}} \, {\ bar {x}}, \\\ ende {justeret}}}

Enkel lineær regression uden aflytningsudtrykket (enkelt regressor) Rediger

Nogle gange er det hensigtsmæssigt at tvinge regressionslinjen til at passere gennem oprindelsen, fordi x og y antages at være proportionale.For modellen uden aflytningsudtrykket, y = βx, forenkles OLS-estimatoren for β til

β ^ = ∑ i = 1 nxiyi ∑ i = 1 nxi 2 = xy ¯ x 2 ¯ {\ displaystyle {\ widehat { \ beta}} = {\ frac {\ sum _ {i = 1} ^ {n} x_ {i} y_ {i}} {\ sum _ {i = 1} ^ {n} x_ {i} ^ {2 }}} = {\ frac {\ overline {xy}} {\ overline {x ^ {2}}}}}

Udskiftning (x – h, y – k) i stedet for (x, y) giver regression gennem (h, k):

β ^ = (x – h) (y – k) ¯ (x – h) 2 ¯ = xy ¯ – kx ¯ – hy ¯ + hkx 2 ¯ – 2 hx ¯ + h 2 = xy ¯ – x ¯ y ¯ + (x ¯ – h) (y ¯ – k) x 2 ¯ – x ¯ 2 + (x ¯ – h) 2 = Cov ⁡ (x, y) + (x ¯ – h) (y ¯ – k) Var ⁡ (x) + (x ¯ – h) 2, {\ displaystyle {\ begin {justeret} {\ widehat {\ beta}} & = {\ frac {\ overline {(xh) (yk)}} {\ overline {(xh) ^ {2}}}} \\ & = {\ frac {{\ overline {xy}} – k {\ bar {x}} – h {\ bar {y}} + hk} {{\ overline {x ^ {2}}} – 2 timer {\ bar {x} } + h ^ {2}}} \\ & = {\ frac {{\ overline {xy}} – {\ bar {x}} {\ bar {y}} + ({\ bar {x}} – h) ({\ bar {y}} – k)} {{\ overline {x ^ {2} }} – {\ bar {x}} ^ {2} + ({\ bar {x}} – h) ^ {2}}} \\ & = {\ frac {\ operatorname {Cov} (x, y) + ({\ bar {x}} – h) ({\ bar {y}} – k)} {\ operatorname {Var} (x) + ({\ bar { x}} – h) ^ {2}}}, \ end {justeret}}}

hvor Cov og Var henviser til samvarianten og variansen af stikprøvedataene (ikke korrigeret for bias).

Den sidste formular ovenfor viser, hvordan flytning af linjen væk fra massepunktet for datapunkterne påvirker hældningen.

Write a Comment

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *