Harkitse mallifunktiota
y = α + β x, {\ displaystyle y = \ alpha + \ beta x,}
joka kuvaa viivaa β ja y-leikkaus α. Yleensä tällainen suhde ei välttämättä päde tarkalleen riippumattomien ja riippuvien muuttujien arvojen suurimmaksi osaksi tarkkailemattomalle ryhmälle; kutsumme virheistä poikkeamia yllä olevasta yhtälöstä. Oletetaan, että havaitsemme n dataparia ja kutsumme niitä {(xi, yi), i = 1, …, n}. Voimme kuvata yi: n ja xi: n välisen taustalla olevan suhteen, johon liittyy tämä virhetermi εi: {\ displaystyle y_ {i} = \ alpha + \ beta x_ {i} + \ varepsilon _ {i}.}
Tätä todellisten (mutta havaitsemattomien) taustalla olevien parametrien α ja β ja datapisteiden välistä suhdetta kutsutaan lineaarinen regressiomalli.
ε ^ i = yi – α – β xi. {\ displaystyle {\ widehat {\ varepsilon}} _ {i} = y_ {i} – \ alpha – \ beta x_ {i}.} Etsi min α, β Q (α, β), Q: lle (α, β ) = ∑ i = 1 n ε ^ i 2 = ∑ i = 1 n (yi – α – β xi) 2. {\ displaystyle {\ text {Etsi}} \ min _ {\ alfa, \, \ beta} Q (\ alfa, \ beta), \ quad {\ text {for}} Q (\ alfa, \ beta) = \ summa _ {i = 1} ^ {n} {\ widehat {\ varepsilon}} _ {i} ^ {\, 2} = \ summa _ {i = 1} ^ {n} (y_ {i} – \ alfa – \ beta x_ {i}) ^ {2} \.} α ^ = y ¯ – (β ^ x ¯), β ^ = ∑ i = 1 n (xi – x ¯) (yi – y ¯) ∑ i = 1 n (xi – x ¯) 2 = sx, ysx 2 = rxysysx. {\ textstyle {\ begin {tasattu} {\ widehat {\ alpha}} & = {\ bar {y}} – ({\ widehat {\ beta}} \, { \ bar {x}}), \\ {\ widehat {\ beta}} & = {\ frac {\ sum _ {i = 1} ^ {n} (x_ { i} – {\ bar {x}}) (y_ {i} – {\ bar {y}})} {\ summa _ {i = 1} ^ {n} (x_ {i} – {\ bar {x }}) ^ {2}}} \\ & = {\ frac {s_ {x, y}} {s_ {x} ^ {2}}} \\ & = r_ {xy} {\ frac {s_ {y}} {s_ {x}}}. \\\ end {tasattu}}}
Tässä olemme esittäneet
Korvaa yllä olevat lausekkeet α ^ {\ displaystyle {\ widehat {\ alpha}}} ja β ^ {\ displaystyle {\ widehat {\ beta}}} sanoilla
f = α ^ + β ^ x, {\ displaystyle f = {\ widehat {\ alpha}} + {\ widehat {\ beta}} x,}
tuottaa
f – y ¯ sy = rxyx – x ¯ sx. {\ displaystyle {\ frac {f – {\ bar {y}}} {s_ {y}}} = r_ {xy} {\ frac {x – {\ bar {x}}} {s_ {x}}} .}
Tämä osoittaa, että rxy on standardoitujen datapisteiden regressioviivan kaltevuus (ja että tämä viiva kulkee origon läpi).
Yleistämällä x ¯ {\ displaystyle {\ bar { x}}} merkintää, voimme kirjoittaa vaakapalkin lausekkeen päälle osoittamaan lausekkeen keskimääräisen arvon näytesarjalle. Esimerkiksi:
x y ¯ = 1 n ∑ i = 1 n x i y i. {\ displaystyle {\ overline {xy}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} y_ {i}.}
Tämän merkinnän avulla voimme tiivis kaava rxylle:
rxy = xy ¯ – x ¯ y ¯ (x 2 ¯ – x ¯ 2) (y 2 ¯ – y ¯ 2). {\ displaystyle r_ {xy} = {\ frac {{\ overline {xy}} – {\ bar {x}} {\ bar {y}}} {\ sqrt {\ left ({\ overline {x ^ {2 }}} – {\ bar {x}} ^ {2} \ right) \ left ({\ overline {y ^ {2}}} – {\ bar {y}} ^ {2} \ right)}}}} .}
Määrityskerroin (”R-neliö”) on yhtä suuri kuin rxy 2 {\ displaystyle r_ {xy} ^ {2}}, kun malli on lineaarinen yhden riippumattoman muuttujan kanssa. Katso lisätietoja korrelaatiokertoimesta näytteestä.
Intuitiivinen selitysMuokkaa
β ^ = ∑ i = 1 n (xi – x ¯) (yi – y ¯) ∑ i = 1 n (xi – x ¯) 2 = ∑ i = 1 n (xi – x ¯) 2 ∗ (yi – y ¯) (xi – x ¯) ∑ i = 1 n (xi – x ¯) 2 {\ displaystyle {\ alkaa {tasattu} {\ widehat {\ beta}} & = {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}} ) (y_ {i} – {\ bar {y}})} {\ summa _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}}) ^ {2}}} = {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}}) ^ {2} * {\ frac {(y_ {i} – {\ bar {y }})} {(x_ {i} – {\ bar {x}})}}}} {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}}) ^ {2}}} \\\ end {tasattu}}} α ^ = y ¯ – β ^ x ¯, {\ displaystyle {\ begin {tasattu} {\ widehat {\ alpha}} & = {\ bar {y}} – {\ widehat {\ beta}} \, {\ bar {x}}, \\\ end {tasattu}}}
Yksinkertainen lineaarinen regressio ilman sieppaus termiä (yksittäinen regressori) Muokkaa
Joskus on tarkoituksenmukaista pakottaa regressioviiva kulkemaan origon läpi, koska x: n ja y: n oletetaan olevan verrannollisia.Mallissa, jossa ei ole sieppaustermiä y = βx, β: n OLS-estimaattori yksinkertaistuu muotoon
β ^ = ∑ i = 1 nxiyi ∑ i = 1 nxi 2 = xy ¯ x 2 ¯ {\ displaystyle {\ widehat { \ beta}} = {\ frac {\ sum _ {i = 1} ^ {n} x_ {i} y_ {i}} {\ sum _ {i = 1} ^ {n} x_ {i} ^ {2 }}} = {\ frac {\ overline {xy}} {\ overline {x ^ {2}}}}}
Korvaamalla (x – h, y – k) (x, y): n tilalle saadaan regressio läpi (h, k):
β ^ = (x – h) (y – k) ¯ (x – h) 2 ¯ = xy ¯ – kx ¯ – hy ¯ + hkx 2 ¯ – 2 hx ¯ + h 2 = xy ¯ – x ¯ y ¯ + (x ¯ – h) (y ¯ – k) x 2 ¯ – x ¯ 2 + (x ¯ – h) 2 = Cov (x, y) + (x) ¯ – h) (y ¯ – k) Var (x) + (x ¯ – h) 2, {\ displaystyle {\ begin {aligned} {\ widehat {\ beta}} & = {\ frac {\ overline {(xh) (yk)}} {\ overline {(xh) ^ {2}}}} \\ & = {\ frac {{\ overline {xy}} – k {\ bar {x}} – h {\ bar {y}} + hk} {{\ overline {x ^ {2}}} – 2h {\ bar {x} } + h ^ {2}}} \\ & = {\ frac {{\ overline {xy}} – {\ bar {x}} {\ bar {y}} + ({\ bar {x}} – h) ({\ bar {y}} – k)} {{\ overline {x ^ {2} }} – {\ bar {x}} ^ {2} + ({\ bar {x}} – h) ^ {2}}} \\ & = {\ frac {\ operaattorin nimi {Cov} (x, y) + ({\ bar {x}} – h) ({\ bar {y}} – k)} {\ operaattorin nimi {Var} (x) + ({\ bar { x}} – h) ^ {2}}}, \ end {kohdistettu}}}
missä Cov ja Var viittaavat näytetietojen kovariaatioon ja varianssiin (korjaamattomina).
Viimeinen yllä oleva muoto osoittaa kuinka viivan siirtäminen datapisteiden massakeskipisteestä vaikuttaa kaltevuuteen.