Enkel lineær regresjon

Vurder modellfunksjonen

y = α + β x, {\ displaystyle y = \ alpha + \ beta x,}

som beskriver en linje med skråning β og y-skjæringspunkt α. Generelt kan et slikt forhold ikke være akkurat for den stort sett uobserverte verdipopulasjonen til de uavhengige og avhengige variablene; vi kaller uobserverte avvik fra ovenstående ligning for feilene. Anta at vi observerer n datapar og kaller dem {(xi, yi), i = 1, …, n}. Vi kan beskrive det underliggende forholdet mellom yi og xi som involverer dette feiluttrykket εi ved

y i = α + β x i + ε i. {\ displaystyle y_ {i} = \ alpha + \ beta x_ {i} + \ varepsilon _ {i}.}

Dette forholdet mellom de sanne (men ikke observerte) underliggende parametrene α og β og datapunktene kalles en lineær regresjonsmodell.

ε ^ i = yi – α – β xi. {\ displaystyle {\ widehat {\ varepsilon}} _ {i} = y_ {i} – \ alpha – \ beta x_ {i}.} Finn min α, β Q (α, β), for Q (α, β ) = ∑ i = 1 n ε ^ i 2 = ∑ i = 1 n (yi – α – β xi) 2. {\ displaystyle {\ text {Finn}} \ min _ {\ alpha, \, \ beta} Q (\ alpha, \ beta), \ quad {\ text {for}} Q (\ alpha, \ beta) = \ sum _ {i = 1} ^ {n} {\ widehat {\ varepsilon}} _ {i} ^ {\, 2} = \ sum _ {i = 1} ^ {n} (y_ {i} – \ alpha – \ beta x_ {i}) ^ {2} \.} α ^ = y ¯ – (β ^ x ¯), β ^ = ∑ i = 1 n (xi – x ¯) (yi – y ¯) ∑ i = 1 n (xi – x ¯) 2 = sx, ysx 2 = rxysysx. {\ textstyle {\ begin {align} {\ widehat {\ alpha}} & = {\ bar {y}} – ({\ widehat {\ beta}} \, { \ bar {x}}), \\ {\ widehat {\ beta}} & = {\ frac {\ sum _ {i = 1} ^ {n} (x_ { i} – {\ bar {x}}) (y_ {i} – {\ bar {y}})} {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x }}) ^ {2}}} \\ & = {\ frac {s_ {x, y}} {s_ {x} ^ {2}}} \\ & = r_ {xy} {\ frac {s_ {y}} {s_ {x}}}. \\\ slutt {justert}}}

Her har vi introdusert

Erstatter uttrykkene ovenfor for α ^ {\ displaystyle {\ widehat {\ alpha}}} og β ^ {\ displaystyle {\ widehat {\ beta}}} i

f = α ^ + β ^ x, {\ displaystyle f = {\ widehat {\ alpha}} + {\ widehat {\ beta}} x,}

gir

f – y ¯ sy = rxyx – x ¯ sx. {\ displaystyle {\ frac {f – {\ bar {y}}} {s_ {y}}} = r_ {xy} {\ frac {x – {\ bar {x}}} {s_ {x}}} .}

Dette viser at rxy er skråningen til regresjonslinjen til de standardiserte datapunktene (og at denne linjen går gjennom opprinnelsen).

Generalisering av x ¯ {\ displaystyle {\ bar { x}}} notasjon, kan vi skrive en horisontal stolpe over et uttrykk for å indikere gjennomsnittsverdien for det uttrykket over settet med prøver. For eksempel:

x y ¯ = 1 n ∑ i = 1 n x i y i. {\ displaystyle {\ overline {xy}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} y_ {i}.}

Denne notasjonen tillater oss en kort formel for rxy:

rxy = xy ¯ – x ¯ y ¯ (x 2 ¯ – x ¯ 2) (y 2 ¯ – y ¯ 2). {\ displaystyle r_ {xy} = {\ frac {{\ overline {xy}} – {\ bar {x}} {\ bar {y}}} {\ sqrt {\ left ({\ overline {x ^ {2) }}} – {\ bar {x}} ^ {2} \ høyre) \ venstre ({\ overline {y ^ {2}}} – {\ bar {y}} ^ {2} \ høyre)}} .}

Bestemmelseskoeffisienten («R kvadrat») er lik rxy 2 {\ displaystyle r_ {xy} ^ {2}} når modellen er lineær med en enkelt uavhengig variabel. Se eksemplets korrelasjonskoeffisient for ytterligere detaljer.

Intuitiv forklaring Rediger

β ^ = ∑ i = 1 n (xi – x ¯) (yi – y ¯) ∑ i = 1 n (xi – x ¯) 2 = ∑ i = 1 n (xi – x ¯) 2 ∗ (yi – y ¯) (xi – x ¯) ∑ i = 1 n (xi – x ¯) 2 {\ displaystyle {\ begin {justert} {\ widehat {\ beta}} & = {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}} ) (y_ {i} – {\ bar {y}})} {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}}) ^ {2}}} = {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}}) ^ {2} * {\ frac {(y_ {i} – {\ bar {y }})} {(x_ {i} – {\ bar {x}})}}} {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}}) ^ {2}}} \\\ end {align}}} α ^ = y ¯ – β ^ x ¯, {\ displaystyle {\ begin {align} {\ widehat {\ alpha}} & = {\ bar {y}} – {\ widehat {\ beta}} \, {\ bar {x}}, \\\ slutt {justert}}}

Enkel lineær regresjon uten avskjæringsbegrepet (enkelt regressor) Rediger

Noen ganger er det hensiktsmessig å tvinge regresjonslinjen til å passere gjennom opprinnelsen, fordi x og y antas å være proporsjonale.For modellen uten avskjæringsbegrepet, y = βx, forenkles OLS-estimatoren for β til

β ^ = ∑ i = 1 nxiyi ∑ i = 1 nxi 2 = xy ¯ x 2 ¯ {\ displaystyle {\ widehat { \ beta}} = {\ frac {\ sum _ {i = 1} ^ {n} x_ {i} y_ {i}} {\ sum _ {i = 1} ^ {n} x_ {i} ^ {2 }}} = {\ frac {\ overline {xy}} {\ overline {x ^ {2}}}}

Hvis du erstatter (x – h, y – k) i stedet for (x, y), får du regresjon gjennom (h, k):

β ^ = (x – h) (y – k) ¯ (x – h) 2 ¯ = xy ¯ – kx ¯ – hy ¯ + hkx 2 ¯ – 2 hx ¯ + h 2 = xy ¯ – x ¯ y ¯ + (x ¯ – h) (y ¯ – k) x 2 ¯ – x ¯ 2 + (x ¯ – h) 2 = Cov ⁡ (x, y) + (x ¯ – h) (y ¯ – k) Var ⁡ (x) + (x ¯ – h) 2, {\ displaystyle {\ begin {justert} {\ widehat {\ beta}} & = {\ frac {\ overline {(xh) (yk)}} {\ overline {(xh) ^ {2}}}} \\ & = {\ frac {{\ overline {xy}} – k {\ bar {x}} – h {\ bar {y}} + hk} {{\ overline {x ^ {2}}} – 2t {\ bar {x} } + h ^ {2}}} \\ & = {\ frac {{\ overline {xy}} – {\ bar {x}} {\ bar {y}} + ({\ bar {x}} – h) ({\ bar {y}} – k)} {{\ overline {x ^ {2} }} – {\ bar {x}} ^ {2} + ({\ bar {x}} – h) ^ {2}}} \\ & = {\ frac {\ operatorname {Cov} (x, y) + ({\ bar {x}} – h) ({\ bar {y}} – k)} {\ operatorname {Var} (x) + ({\ bar { x}} – h) ^ {2}}}, \ end {justert}}}

der Cov og Var refererer til kovariansen og variansen til eksempeldataene (ukorrigert for skjevhet).

Det siste skjemaet ovenfor viser hvordan flytting av linjen vekk fra massepunktet til datapunktene påvirker skråningen.

Write a Comment

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *