Considere la función del modelo
y = α + β x, {\ displaystyle y = \ alpha + \ beta x,}
que describe una línea con pendiente β e intersección con el eje y α. En general, tal relación puede no ser válida exactamente para la población mayoritariamente no observada de valores de las variables independientes y dependientes; A las desviaciones no observadas de la ecuación anterior las llamamos errores. Suponga que observamos n pares de datos y los llamamos {(xi, yi), i = 1, …, n}. Podemos describir la relación subyacente entre yi y xi que involucra este término de error εi por
y i = α + β x i + ε i. {\ Displaystyle y_ {i} = \ alpha + \ beta x_ {i} + \ varepsilon _ {i}.}
Esta relación entre los parámetros subyacentes verdaderos (pero no observados) α y β y los puntos de datos se llama modelo de regresión lineal.
ε ^ i = yi – α – β xi. {\ displaystyle {\ widehat {\ varepsilon}} _ {i} = y_ {i} – \ alpha – \ beta x_ {i}.} Encuentra min α, β Q (α, β), para Q (α, β ) = ∑ yo = 1 norte ε ^ yo 2 = ∑ yo = 1 norte (yi – α – β xi) 2. {\ Displaystyle {\ text {Find}} \ min _ {\ alpha, \, \ beta} Q (\ alpha, \ beta), \ quad {\ text {para}} Q (\ alpha, \ beta) = \ sum _ {i = 1} ^ {n} {\ widehat {\ varepsilon}} _ {i} ^ {\, 2} = \ sum _ {i = 1} ^ {n} (y_ {i} – \ alpha – \ beta x_ {i}) ^ {2} \.} α ^ = y ¯ – (β ^ x ¯), β ^ = ∑ i = 1 norte (xi – x ¯) (yi – y ¯) ∑ i = 1 norte (xi – x ¯) 2 = sx, ysx 2 = rxysysx. {\ textstyle {\ begin {align} {\ widehat {\ alpha}} & = {\ bar {y}} – ({\ widehat {\ beta}} \, { \ bar {x}}), \\ {\ widehat {\ beta}} & = {\ frac {\ sum _ {i = 1} ^ {n} (x_ { i} – {\ bar {x}}) (y_ {i} – {\ bar {y}})} {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x }}) ^ {2}}} \\ & = {\ frac {s_ {x, y}} {s_ {x} ^ {2}}} \\ & = r_ {xy} {\ frac {s_ {y}} {s_ {x}}}. \\\ end {alineado}}}
Aquí hemos introducido
Sustituyendo las expresiones anteriores por α ^ {\ displaystyle {\ widehat {\ alpha}}} y β ^ {\ displaystyle {\ widehat {\ beta}}} en
f = α ^ + β ^ x, {\ displaystyle f = {\ widehat {\ alpha}} + {\ widehat {\ beta}} x,}
produce
f – y ¯ sy = rxyx – x ¯ sx. {\ Displaystyle {\ frac {f – {\ bar {y}}} {s_ {y}}} = r_ {xy} {\ frac {x – {\ bar {x}}} {s_ {x}}} .}
Esto muestra que rxy es la pendiente de la línea de regresión de los puntos de datos estandarizados (y que esta línea pasa por el origen).
Generalizando la x ¯ {\ displaystyle {\ bar { x}}} notación, podemos escribir una barra horizontal sobre una expresión para indicar el valor promedio de esa expresión sobre el conjunto de muestras. Por ejemplo:
x y ¯ = 1 n ∑ i = 1 n x i y i. {\ displaystyle {\ overline {xy}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} y_ {i}.}
Esta notación nos permite una fórmula concisa para rxy:
rxy = xy ¯ – x ¯ y ¯ (x 2 ¯ – x ¯ 2) (y 2 ¯ – y ¯ 2). {\ Displaystyle r_ {xy} = {\ frac {{\ overline {xy}} – {\ bar {x}} {\ bar {y}}} {\ sqrt {\ left ({\ overline {x ^ {2 }}} – {\ bar {x}} ^ {2} \ right) \ left ({\ overline {y ^ {2}}} – {\ bar {y}} ^ {2} \ right)}}} .}
El coeficiente de determinación («R al cuadrado») es igual a rxy 2 {\ displaystyle r_ {xy} ^ {2}} cuando el modelo es lineal con una sola variable independiente. Consulte el coeficiente de correlación de muestra para obtener más detalles.
Explicación intuitivaEditar
β ^ = ∑ i = 1 n (xi – x ¯) (yi – y ¯) ∑ i = 1 n (xi – x ¯) 2 = ∑ yo = 1 norte (xi – x ¯) 2 ∗ (yi – y ¯) (xi – x ¯) ∑ yo = 1 norte (xi – x ¯) 2 {\ Displaystyle {\ begin {alineado} {\ widehat {\ beta}} & = {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}} ) (y_ {i} – {\ bar {y}})} {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}}) ^ {2}}} = {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}}) ^ {2} * {\ frac {(y_ {i} – {\ bar {y }})} {(x_ {i} – {\ bar {x}})}}} {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}}) ^ {2}}} \\\ end {alineado}}} α ^ = y ¯ – β ^ x ¯, {\ displaystyle {\ begin {alineado} {\ widehat {\ alpha}} & = {\ bar {y}} – {\ widehat {\ beta}} \, {\ bar {x}}, \\\ end {alineado}}}
Regresión lineal simple sin el término de intersección (regresor simple) Editar
A veces es apropiado forzar a la línea de regresión a pasar por el origen, porque se supone que xey son proporcionales.Para el modelo sin el término de intersección, y = βx, el estimador MCO de β se simplifica a
β ^ = ∑ i = 1 nxiyi ∑ i = 1 nxi 2 = xy ¯ x 2 ¯ {\ displaystyle {\ widehat { \ beta}} = {\ frac {\ sum _ {i = 1} ^ {n} x_ {i} y_ {i}} {\ sum _ {i = 1} ^ {n} x_ {i} ^ {2 }}} = {\ frac {\ overline {xy}} {\ overline {x ^ {2}}}}}
Sustituir (x – h, y – k) en lugar de (x, y) da el regresión a través de (h, k):
β ^ = (x – h) (y – k) ¯ (x – h) 2 ¯ = xy ¯ – kx ¯ – hy ¯ + hkx 2 ¯ – 2 hx ¯ + h 2 = xy ¯ – x ¯ y ¯ + (x ¯ – h) (y ¯ – k) x 2 ¯ – x ¯ 2 + (x ¯ – h) 2 = Cov (x, y) + (x ¯ – h) (y ¯ – k) Var (x) + (x ¯ – h) 2, {\ displaystyle {\ begin {alineado} {\ widehat {\ beta}} & = {\ frac {\ overline {(xh) (yk)}} {\ overline {(xh) ^ {2}}}} \\ & = {\ frac {{\ overline {xy}} – k {\ bar {x}} – h {\ bar {y}} + hk} {{\ overline {x ^ {2}}} – 2h {\ bar {x} } + h ^ {2}}} \\ & = {\ frac {{\ overline {xy}} – {\ bar {x}} {\ bar {y}} + ({\ bar {x}} – h) ({\ bar {y}} – k)} {{\ overline {x ^ {2} }} – {\ bar {x}} ^ {2} + ({\ bar {x}} – h) ^ {2}}} \\ & = {\ frac {\ operatorname {Cov} (x, y) + ({\ bar {x}} – h) ({\ bar {y}} – k)} {\ operatorname {Var} (x) + ({\ bar { x}} – h) ^ {2}}}, \ end {alineado}}}
donde Cov y Var se refieren a la covarianza y la varianza de los datos de la muestra (sin corregir el sesgo).
El último formulario anterior demuestra cómo el alejar la línea del centro de masa de los puntos de datos afecta la pendiente.