Enkel linjär regression

Tänk på modellfunktionen

y = α + β x, {\ displaystyle y = \ alpha + \ beta x,}

som beskriver en linje med lutning P- och y-skärning α. I allmänhet kanske en sådan relation inte exakt gäller för den i stort sett obemärkta populationen av värden för de oberoende och beroende variablerna; vi kallar de obemärkta avvikelserna från ovanstående ekvation för felen. Antag att vi observerar n datapar och kallar dem {(xi, yi), i = 1, …, n}. Vi kan beskriva det underliggande förhållandet mellan yi och xi som involverar denna felterm εi med

y i = α + β x i + ε i. {\ displaystyle y_ {i} = \ alpha + \ beta x_ {i} + \ varepsilon _ {i}.}

Detta förhållande mellan de sanna (men obemärkta) underliggande parametrarna α och β och datapunkterna kallas en linjär regressionsmodell.

ε ^ i = yi – α – β xi. {\ displaystyle {\ widehat {\ varepsilon}} _ {i} = y_ {i} – \ alpha – \ beta x_ {i}.} Hitta min α, β Q (α, β), för Q (α, β ) = ∑ i = 1 n ε ^ i 2 = ∑ i = 1 n (yi – α – β xi) 2. {\ displaystyle {\ text {Find}} \ min _ {\ alpha, \, \ beta} Q (\ alpha, \ beta), \ quad {\ text {for}} Q (\ alpha, \ beta) = \ summa _ {i = 1} ^ {n} {\ widehat {\ varepsilon}} _ {i} ^ {\, 2} = \ sum _ {i = 1} ^ {n} (y_ {i} – \ alpha – \ beta x_ {i}) ^ {2} \.} α ^ = y ¯ – (β ^ x ¯), β ^ = ∑ i = 1 n (xi – x ¯) (yi – y ¯) ∑ i = 1 n (xi – x ¯) 2 = sx, ysx 2 = rxysysx. {\ textstyle {\ begin {align} {\ widehat {\ alpha}} & = {\ bar {y}} – ({\ widehat {\ beta}} \, { \ bar {x}}), \\ {\ widehat {\ beta}} & = {\ frac {\ sum _ {i = 1} ^ {n} (x_ { i} – {\ bar {x}}) (y_ {i} – {\ bar {y}})} {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x }}) ^ {2}}} \\ & = {\ frac {s_ {x, y}} {s_ {x} ^ {2}}} \\ & = r_ {xy} {\ frac {s_ {y}} {s_ {x}}}. \\\ slutet {justerad}}}

Här har vi introducerat

Ersätter ovanstående uttryck för α ^ {\ displaystyle {\ widehat {\ alpha}}} och β ^ {\ displaystyle {\ widehat {\ beta}}} i

f = α ^ + β ^ x, {\ displaystyle f = {\ widehat {\ alpha}} + {\ widehat {\ beta}} x,}

ger

f – y ¯ sy = rxyx – x ¯ sx. {\ displaystyle {\ frac {f – {\ bar {y}}} {s_ {y}}} = r_ {xy} {\ frac {x – {\ bar {x}}} {s_ {x}}} .}

Detta visar att rxy är lutningen på regressionslinjen för de standardiserade datapunkterna (och att denna linje passerar genom ursprunget).

Generalisering av x ¯ {\ displaystyle {\ bar { x}}} notering, vi kan skriva ett horisontellt fält över ett uttryck för att ange det genomsnittliga värdet för det uttrycket över uppsättningen prover. Till exempel:

x y ¯ = 1 n ∑ i = 1 n x i y i. {\ displaystyle {\ overline {xy}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} y_ {i}.}

Denna notation tillåter oss en kortfattad formel för rxy:

rxy = xy ¯ – x ¯ y ¯ (x 2 ¯ – x ¯ 2) (y 2 ¯ – y ¯ 2). {\ displaystyle r_ {xy} = {\ frac {{\ overline {xy}} – {\ bar {x}} {\ bar {y}}} {\ sqrt {\ left ({\ overline {x ^ {2 }}} – {\ bar {x}} ^ {2} \ höger) \ vänster ({\ överlinje {y ^ {2}}} – {\ bar {y}} ^ {2} \ höger)}}} .}

Bestämningskoefficienten (”R kvadrat”) är lika med rxy 2 {\ displaystyle r_ {xy} ^ {2}} när modellen är linjär med en enda oberoende variabel. Se exempelkorrelationskoefficient för ytterligare detaljer.

Intuitiv förklaring Redigera

β ^ = ∑ i = 1 n (xi – x ¯) (yi – y ¯) ∑ i = 1 n (xi – x ¯) 2 = ∑ i = 1 n (xi – x ¯) 2 ∗ (yi – y ¯) (xi – x ¯) ∑ i = 1 n (xi – x ¯) 2 {\ displaystyle {\ begin {inriktad} {\ widehat {\ beta}} & = {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}} ) (y_ {i} – {\ bar {y}})} {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}}) ^ {2}}} = {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}}) ^ {2} * {\ frac {(y_ {i} – {\ bar {y }})} {(x_ {i} – {\ bar {x}})}}} {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}}) ^ {2}}} \\\ slut {align}}} α ^ = y ¯ – β ^ x ¯, {\ displaystyle {\ begin {align} {\ widehat {\ alpha}} & = {\ bar {y}} – {\ widehat {\ beta}} \, {\ bar {x}}, \\\ slutet {justerad}}}

Enkel linjär regression utan avlyssningsbegreppet (enkel regressor) Redigera

Ibland är det lämpligt att tvinga regressionslinjen att passera genom ursprunget, eftersom x och y antas vara proportionella.För modellen utan avlyssningsterm, y = βx, förenklar OLS-uppskattaren för β till

β ^ = ∑ i = 1 nxiyi ∑ i = 1 nxi 2 = xy ¯ x 2 ¯ {\ displaystyle {\ widehat { \ beta}} = {\ frac {\ sum _ {i = 1} ^ {n} x_ {i} y_ {i}} {\ sum _ {i = 1} ^ {n} x_ {i} ^ {2 }}} = {\ frac {\ overline {xy}} {\ overline {x ^ {2}}}}}

Att ersätta (x – h, y – k) i stället för (x, y) ger regression genom (h, k):

β ^ = (x – h) (y – k) ¯ (x – h) 2 ¯ = xy ¯ – kx ¯ – hy ¯ + hkx 2 ¯ – 2 hx ¯ + h 2 = xy ¯ – x ¯ y ¯ + (x ¯ – h) (y ¯ – k) x 2 ¯ – x ¯ 2 + (x ¯ – h) 2 = Cov ⁡ (x, y) + (x ¯ – h) (y ¯ – k) Var ⁡ (x) + (x ¯ – h) 2, {\ displaystyle {\ begin {aligned} {\ widehat {\ beta}} & = {\ frac {\ overline {(xh) (yk)}} {\ overline {(xh) ^ {2}}}} \\ & = {\ frac {{\ overline {xy}} – k {\ bar {x}} – h {\ bar {y}} + hk} {{\ overline {x ^ {2}}} – 2h {\ bar {x} } + h ^ {2}}} \\ & = {\ frac {{\ overline {xy}} – {\ bar {x}} {\ bar {y}} + ({\ bar {x}} – h) ({\ bar {y}} – k)} {{\ overline {x ^ {2} }} – {\ bar {x}} ^ {2} + ({\ bar {x}} – h) ^ {2}}} \\ & = {\ frac {\ operatorname {Cov} (x, y) + ({\ bar {x}} – h) ({\ bar {y}} – k)} {\ operatorname {Var} (x) + ({\ bar { x}} – h) ^ {2}}}, \ slut {justerad}}}

där Cov och Var hänvisar till samvarianten och variansen i provdata (okorrigerad för förspänning).

Den sista formen ovan visar hur flyttning av linjen från datapunkternas masscentrum påverkar lutningen.

Volta

Enkel linjär regression

Intuitiv förklaring Redigera

Enkel linjär regression utan avlyssningsbegreppet (enkel regressor) Redigera

Write a Comment Avbryt svar

Intuitiv förklaring Redigera

Enkel linjär regression utan avlyssningsbegreppet (enkel regressor) Redigera

You may also like these posts

School of Writing, Literature, and Film (Svenska)

Hur man behandlar vägutslag

Black crappie fångad i Loudon County är det nya världsrekordet

Write a Comment Avbryt svar