Régression linéaire simple

Considérons la fonction modèle

y = α + β x, {\ displaystyle y = \ alpha + \ beta x,}

qui décrit une ligne avec pente β et ordonnée à l’origine α. En général, une telle relation peut ne pas être exacte pour la population largement non observée de valeurs des variables indépendantes et dépendantes; nous appelons les écarts non observés par rapport à l’équation ci-dessus les erreurs. Supposons que nous observions n paires de données et les appelions {(xi, yi), i = 1, …, n}. Nous pouvons décrire la relation sous-jacente entre yi et xi impliquant ce terme d’erreur εi par

y i = α + β x i + ε i. {\ displaystyle y_ {i} = \ alpha + \ beta x_ {i} + \ varepsilon _ {i}.}

Cette relation entre les vrais (mais non observés) paramètres sous-jacents α et β et les points de données est appelée a modèle de régression linéaire.

ε ^ i = yi – α – β xi. {\ displaystyle {\ widehat {\ varepsilon}} _ {i} = y_ {i} – \ alpha – \ beta x_ {i}.} Trouver min α, β Q (α, β), pour Q (α, β ) = ∑ i = 1 n ε ^ i 2 = ∑ i = 1 n (yi – α – β xi) 2. {\ displaystyle {\ text {Rechercher}} \ min _ {\ alpha, \, \ beta} Q (\ alpha, \ beta), \ quad {\ text {pour}} Q (\ alpha, \ beta) = \ somme _ {i = 1} ^ {n} {\ widehat {\ varepsilon}} _ {i} ^ {\, 2} = \ sum _ {i = 1} ^ {n} (y_ {i} – \ alpha – \ beta x_ {i}) ^ {2} \.} α ^ = y ¯ – (β ^ x ¯), β ^ = ∑ i = 1 n (xi – x ¯) (yi – y ¯) ∑ i = 1 n (xi – x ¯) 2 = sx, ysx 2 = rxysysx. {\ textstyle {\ begin {aligné} {\ widehat {\ alpha}} & = {\ bar {y}} – ({\ widehat {\ beta}} \, { \ bar {x}}), \\ {\ widehat {\ beta}} & = {\ frac {\ sum _ {i = 1} ^ {n} (x_ { i} – {\ bar {x}}) (y_ {i} – {\ bar {y}})} {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x }}) ^ {2}}} \\ & = {\ frac {s_ {x, y}} {s_ {x} ^ {2}}} \\ & = r_ {xy} {\ frac {s_ {y}} {s_ {x}}}. \\\ end {aligné}}}

Ici, nous avons présenté

En remplaçant les expressions ci-dessus par α ^ {\ displaystyle {\ widehat {\ alpha}}} et β ^ {\ displaystyle {\ widehat {\ beta}}} par

f = α ^ + β ^ x, {\ displaystyle f = {\ widehat {\ alpha}} + {\ widehat {\ beta}} x,}

donne

f – y ¯ sy = rxyx – x ¯ sx. {\ displaystyle {\ frac {f – {\ bar {y}}} {s_ {y}}} = r_ {xy} {\ frac {x – {\ bar {x}}} {s_ {x}}} .}

Ceci montre que rxy est la pente de la droite de régression des points de données normalisés (et que cette ligne passe par l’origine).

Généraliser le x ¯ {\ displaystyle {\ bar { x}}}, nous pouvons écrire une barre horizontale sur une expression pour indiquer la valeur moyenne de cette expression sur l’ensemble des échantillons. Par exemple:

x y ¯ = 1 n ∑ i = 1 n x i y i. {\ displaystyle {\ overline {xy}} = {\ frac {1} {n}} \ sum _ {i = 1} ^ {n} x_ {i} y_ {i}.}

Cette notation nous permet une formule concise pour rxy:

rxy = xy ¯ – x ¯ y ¯ (x 2 ¯ – x ¯ 2) (y 2 ¯ – y ¯ 2). {\ displaystyle r_ {xy} = {\ frac {{\ overline {xy}} – {\ bar {x}} {\ bar {y}}} {\ sqrt {\ left ({\ overline {x ^ {2 }}} – {\ bar {x}} ^ {2} \ right) \ left ({\ overline {y ^ {2}}} – {\ bar {y}} ^ {2} \ right)}}} .}

Le coefficient de détermination (« R au carré ») est égal à rxy 2 {\ displaystyle r_ {xy} ^ {2}} lorsque le modèle est linéaire avec une seule variable indépendante. Voir l’exemple de coefficient de corrélation pour plus de détails.

Explication intuitive Modifier

β ^ = ∑ i = 1 n (xi – x ¯) (yi – y ¯) ∑ i = 1 n (xi – x ¯) 2 = ∑ i = 1 n (xi – x ¯) 2 ∗ (yi – y ¯) (xi – x ¯) ∑ i = 1 n (xi – x ¯) 2 {\ displaystyle {\ begin {aligné} {\ widehat {\ beta}} & = {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}} ) (y_ {i} – {\ bar {y}})} {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}}) ^ {2}}} = {\ frac {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}}) ^ {2} * {\ frac {(y_ {i} – {\ bar {y }})} {(x_ {i} – {\ bar {x}})}}} {\ sum _ {i = 1} ^ {n} (x_ {i} – {\ bar {x}}) ^ {2}}} \\\ end {aligné}}} α ^ = y ¯ – β ^ x ¯, {\ displaystyle {\ begin {aligné} {\ widehat {\ alpha}} & = {\ bar {y}} – {\ widehat {\ beta}} \, {\ bar {x}}, \\\ end {aligné}}}

Régression linéaire simple sans le terme d’interception (régresseur unique) Edit

Parfois, il est approprié de forcer la droite de régression à passer par l’origine, car x et y sont supposés proportionnels.Pour le modèle sans le terme d’interception, y = βx, l’estimateur OLS pour β se simplifie en

β ^ = ∑ i = 1 nxiyi ∑ i = 1 nxi 2 = xy ¯ x 2 ¯ {\ displaystyle {\ widehat { \ beta}} = {\ frac {\ sum _ {i = 1} ^ {n} x_ {i} y_ {i}} {\ sum _ {i = 1} ^ {n} x_ {i} ^ {2 }}} = {\ frac {\ overline {xy}} {\ overline {x ^ {2}}}}}

Remplacer (x – h, y – k) à la place de (x, y) donne le régression par (h, k):

β ^ = (x – h) (y – k) ¯ (x – h) 2 ¯ = xy ¯ – kx ¯ – hy ¯ + hkx 2 ¯ – 2 hx ¯ + h 2 = xy ¯ – x ¯ y ¯ + (x ¯ – h) (y ¯ – k) x 2 ¯ – x ¯ 2 + (x ¯ – h) 2 = Cov ⁡ (x, y) + (x ¯ – h) (y ¯ – k) Var ⁡ (x) + (x ¯ – h) 2, {\ displaystyle {\ begin {aligné} {\ widehat {\ beta}} & = {\ frac {\ overline {(xh) (yk)}} {\ overline {(xh) ^ {2}}}} \\ & = {\ frac {{\ overline {xy}} – k {\ bar {x}} – h {\ bar {y}} + hk} {{\ overline {x ^ {2}}} – 2h {\ bar {x} } + h ^ {2}}} \\ & = {\ frac {{\ overline {xy}} – {\ bar {x}} {\ bar {y}} + ({\ bar {x}} – h) ({\ bar {y}} – k)} {{\ overline {x ^ {2} }} – {\ bar {x}} ^ {2} + ({\ bar {x}} – h) ^ {2}}} \\ & = {\ frac {\ operatorname {Cov} (x, y) + ({\ bar {x}} – h) ({\ bar {y}} – k)} {\ operatorname {Var} (x) + ({\ bar { x}} – h) ^ {2}}}, \ end {aligné}}}

où Cov et Var font référence à la covariance et à la variance des données de l’échantillon (non corrigées pour le biais).

Le dernier formulaire ci-dessus montre comment l’éloignement de la ligne du centre de gravité des points de données affecte la pente.

Volta

Régression linéaire simple

Explication intuitive Modifier

Régression linéaire simple sans le terme d’interception (régresseur unique) Edit

Write a Comment Annuler la réponse

Explication intuitive Modifier

Régression linéaire simple sans le terme d’interception (régresseur unique) Edit

You may also like these posts

Mapp v. Ohio (Français)

Marc 8:36

COMPATIBILITÉ AVEC LE BÉLIER ET LE CANCER

Write a Comment Annuler la réponse