Regressione lineare semplice

Considera la funzione modello

y = α + β x, {\ displaystyle y = \ alpha + \ beta x,}

che descrive una retta con pendenza β e y-intercetta α. In generale una tale relazione potrebbe non valere esattamente per la popolazione di valori largamente inosservata delle variabili indipendenti e dipendenti; chiamiamo errori le deviazioni non osservate dall’equazione precedente. Supponiamo di osservare n coppie di dati e di chiamarle {(xi, yi), i = 1, …, n}. Possiamo descrivere la relazione sottostante tra yi e xi che coinvolge questo termine di errore εi con

y i = α + β x i + ε i. {\ Displaystyle y_ {i} = \ alpha + \ beta x_ {i} + \ varepsilon _ {i}.}

Questa relazione tra i parametri sottostanti veri (ma non osservati) α e β e i punti dati è chiamata a modello di regressione lineare.

ε ^ i = yi – α – β xi. {\ displaystyle {\ widehat {\ varepsilon}} _ {i} = y_ {i} – \ alpha – \ beta x_ {i}.} Trova min α, β Q (α, β), per Q (α, β ) = ∑ i = 1 n ε ^ i 2 = ∑ i = 1 n (yi – α – β xi) 2. {\ displaystyle {\ text {Trova}} \ min _ {\ alpha, \, \ beta} Q (\ alpha, \ beta), \ quad {\ text {for}} Q (\ alpha, \ beta) = \ sum _ {i = 1} ^ {n} {\ widehat {\ varepsilon}} _ {i} ^ {\, 2} = \ sum _ {i = 1} ^ {n} (y_ {i} – \ alpha – \ beta x_ {i}) ^ {2} \.} α ^ = y ¯ – (β ^ x ¯), β ^ = ∑ i = 1 n (xi – x ¯) (yi – y ¯) ∑ i = 1 n (xi – x ¯) 2 = sx, ysx 2 = rxysysx. {\ textstyle {\ begin {align} {\ widehat {\ alpha}} & = {\ bar {y}} – ({\ widehat {\ beta}} \, { \ bar {x}}), \\ {\ widehat {\ beta}} & = {\ frac {\ sum _ {i = 1} ^ {n} (x_ { i} – {\ bar {x}}) (y_ {i} – {\ bar {y}})} {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x }}) ^ {2}}} \\ & = {\ frac {s_ {x, y}} {s_ {x} ^ {2}}} \\ & = r_ {xy} {\ frac {s_ {y}} {s_ {x}}}. \\\ end {align}}}

Qui abbiamo introdotto

Sostituendo le espressioni precedenti per α ^ {\ displaystyle {\ widehat {\ alpha}}} e β ^ {\ displaystyle {\ widehat {\ beta}}} in

f = α ^ + β ^ x, {\ displaystyle f = {\ widehat {\ alpha}} + {\ widehat {\ beta}} x,}

restituisce

f – y ¯ sy = rxyx – x ¯ sx. {\ displaystyle {\ frac {f – {\ bar {y}}} {s_ {y}}} = r_ {xy} {\ frac {x – {\ bar {x}}} {s_ {x}}} .}

Questo mostra che rxy è la pendenza della linea di regressione dei punti dati standardizzati (e che questa linea passa per l’origine).

Generalizzando la x ¯ {\ displaystyle {\ bar { x}}}, possiamo scrivere una barra orizzontale su un’espressione per indicare il valore medio di quell’espressione sull’insieme di campioni. Ad esempio:

x y ¯ = 1 n ∑ i = 1 n x i y i. {\ displaystyle {\ overline {xy}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} y_ {i}.}

Questa notazione ci consente una formula concisa per rxy:

rxy = xy ¯ – x ¯ y ¯ (x 2 ¯ – x ¯ 2) (y 2 ¯ – y ¯ 2). {\ displaystyle r_ {xy} = {\ frac {{\ overline {xy}} – {\ bar {x}} {\ bar {y}}} {\ sqrt {\ left ({\ overline {x ^ {2 }}} – {\ bar {x}} ^ {2} \ right) \ left ({\ overline {y ^ {2}}} – {\ bar {y}} ^ {2} \ right)}}} .}

Il coefficiente di determinazione (“R quadrato”) è uguale a rxy 2 {\ displaystyle r_ {xy} ^ {2}} quando il modello è lineare con una singola variabile indipendente. Vedere il coefficiente di correlazione campione per ulteriori dettagli.

Spiegazione intuitiva Modifica

β ^ = ∑ i = 1 n (xi – x ¯) (yi – y ¯) ∑ i = 1 n (xi – x ¯) 2 = ∑ i = 1 n (xi – x ¯) 2 ∗ (yi – y ¯) (xi – x ¯) ∑ i = 1 n (xi – x ¯) 2 {\ displaystyle {\ begin {allineato} {\ widehat {\ beta}} & = {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}} ) (y_ {i} – {\ bar {y}})} {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}}) ^ {2}}} = {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}}) ^ {2} * {\ frac {(y_ {i} – {\ bar {y }})} {(x_ {i} – {\ bar {x}})}}} {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}}) ^ {2}}} \\\ end {align}}} α ^ = y ¯ – β ^ x ¯, {\ displaystyle {\ begin {align} {\ widehat {\ alpha}} & = {\ bar {y}} – {\ widehat {\ beta}} \, {\ bar {x}}, \\\ end {align}}}

Regressione lineare semplice senza il termine di intercetta (regressore singolo) Modifica

A volte è appropriato forzare il passaggio della retta di regressione attraverso l’origine, perché si presume che x e y siano proporzionali.Per il modello senza il termine di intercetta, y = βx, lo stimatore OLS per β si semplifica in

β ^ = ∑ i = 1 nxiyi ∑ i = 1 nxi 2 = xy ¯ x 2 ¯ {\ displaystyle {\ widehat { \ beta}} = {\ frac {\ sum _ {i = 1} ^ {n} x_ {i} y_ {i}} {\ sum _ {i = 1} ^ {n} x_ {i} ^ {2 }}} = {\ frac {\ overline {xy}} {\ overline {x ^ {2}}}}}

Sostituendo (x – h, y – k) al posto di (x, y) si ottiene il regressione attraverso (h, k):

β ^ = (x – h) (y – k) ¯ (x – h) 2 ¯ = xy ¯ – kx ¯ – hy ¯ + hkx 2 ¯ – 2 hx ¯ + h 2 = xy ¯ – x ¯ y ¯ + (x ¯ – h) (y ¯ – k) x 2 ¯ – x ¯ 2 + (x ¯ – h) 2 = Cov ⁡ (x, y) + (x ¯ – h) (y ¯ – k) Var ⁡ (x) + (x ¯ – h) 2, {\ displaystyle {\ begin {align} {\ widehat {\ beta}} & = {\ frac {\ overline {(xh) (yk)}} {\ overline {(xh) ^ {2}}}} \\ & = {\ frac {{\ overline {xy}} – k {\ bar {x}} – h {\ bar {y}} + hk} {{\ overline {x ^ {2}}} – 2h {\ bar {x} } + h ^ {2}}} \\ & = {\ frac {{\ overline {xy}} – {\ bar {x}} {\ bar {y}} + ({\ bar {x}} – h) ({\ bar {y}} – k)} {{\ overline {x ^ {2} }} – {\ bar {x}} ^ {2} + ({\ bar {x}} – h) ^ {2}}} \\ & = {\ frac {\ operatorname {Cov} (x, y) + ({\ bar {x}} – h) ({\ bar {y}} – k)} {\ operatorname {Var} (x) + ({\ bar { x}} – h) ^ {2}}}, \ end {align}}}

dove Cov e Var si riferiscono alla covarianza e alla varianza dei dati del campione (non corretta per bias).

L’ultimo modulo sopra mostra come lo spostamento della linea dal centro di massa dei punti dati influisce sulla pendenza.

Volta

Regressione lineare semplice

Spiegazione intuitiva Modifica

Regressione lineare semplice senza il termine di intercetta (regressore singolo) Modifica

Write a Comment Annulla risposta

Spiegazione intuitiva Modifica

Regressione lineare semplice senza il termine di intercetta (regressore singolo) Modifica

You may also like these posts

Mexican Rice Pudding (Arroz con Leche)

Tendine plantare: il fastidioso astante?

[Dobutamina: meccanismi di azione e utilizzo nella patologia cardiovascolare acuta]

Write a Comment Annulla risposta