Si la fonction de densité de probabilité d’une variable aléatoire (ou vecteur) X est donnée par fX (x), il est possible (mais souvent pas nécessaire; voir ci-dessous) de calculer le fonction de densité de probabilité d’une variable Y = g (X). Ceci est également appelé « changement de variable » et est en pratique utilisé pour générer une variable aléatoire de forme arbitraire fg (X) = fY en utilisant un générateur de nombres aléatoires connu (par exemple uniforme).
Il est tentant de penser que pour trouver la valeur attendue E (g (X)), il faut d’abord trouver la densité de probabilité fg (X) de la nouvelle variable aléatoire Y = g (X). Cependant, plutôt que de calculer
E (g (X)) = ∫ – ∞ ∞ yfg (X) (y) dy, {\ displaystyle \ operatorname {E} {\ big (} g (X) {\ big)} = \ int _ {- \ infty} ^ {\ infty} yf_ {g (X)} (y) \, dy,}
on peut trouver à la place
E (g (X)) = ∫ – ∞ ∞ g (x) f X (x) dx. {\ Displaystyle \ operatorname {E} {\ big (} g (X) {\ big)} = \ int _ {- \ infty} ^ {\ infty} g (x) f_ {X} (x) \, dx.}
Les valeurs des deux intégrales sont les mêmes dans tous les cas où X et g (X) ont en fait des fonctions de densité de probabilité. Il n’est pas nécessaire que g soit un fonction un-à-un. Dans certains cas, la dernière intégrale est calculée beaucoup plus facilement que la première. Voir Loi de l’ONU statisticien conscient.
Scalar to scalarEdit
Soit g: R → R {\ displaystyle g: {\ mathbb {R}} \ rightarrow {\ mathbb {R}}} un fonction monotone, alors la fonction de densité résultante est
f Y (y) = f X (g – 1 (y)) | d d y (g – 1 (y)) | . {\ displaystyle f_ {Y} (y) = f_ {X} {\ big (} g ^ {- 1} (y) {\ big)} \ left | {\ frac {d} {dy}} {\ big (} g ^ {- 1} (y) {\ big)} \ right |.}
Ici g − 1 désigne la fonction inverse.
Cela découle du fait que la probabilité contenue dans une aire différentielle doit être invariante en cas de changement de variables. Autrement dit,
| f Y (y) d y | = | f X (x) d x | , {\ Displaystyle \ left | f_ {Y} (y) \, dy \ right | = \ left | f_ {X} (x) \, dx \ right |,}
ou
f Y ( y) = | d x d y | f X (x) = | d d y (x) | f X (x) = | d d y (g – 1 (y)) | f X (g – 1 (y)) = | (g – 1) ′ (y) | ⋅ f X (g – 1 (y)). {\ displaystyle f_ {Y} (y) = \ left | {\ frac {dx} {dy}} \ right | f_ {X} (x) = \ left | {\ frac {d} {dy}} (x ) \ right | f_ {X} (x) = \ left | {\ frac {d} {dy}} {\ big (} g ^ {- 1} (y) {\ big)} \ right | f_ {X } {\ big (} g ^ {- 1} (y) {\ big)} = {{\ big |} {\ big (} g ^ {- 1} {\ big)} « (y) {\ big |}} \ cdot f_ {X} {\ big (} g ^ {- 1} (y) {\ big)}.}
Pour les fonctions qui ne sont pas monotones, la fonction de densité de probabilité pour y est
∑ k = 1 n (y) | ddygk – 1 (y) | ⋅ f X (gk – 1 (y)), {\ displaystyle \ sum _ {k = 1} ^ {n (y)} \ left | {\ frac {d} {dy}} g_ {k} ^ {- 1} (y) \ right | \ cdot f_ {X} {\ big (} g_ {k} ^ {- 1} (y) {\ big)},}
Vector to vectorEdit
Les formules ci-dessus peuvent être généralisées à des variables (que nous appellerons à nouveau y) en fonction de plusieurs autres variables. f (x1, …, xn) doit désigner la fonction de densité de probabilité des variables dont y dépend, et la dépendance doit être y = g (x1,…, xn). Ensuite, la fonction de densité résultante est
∫ y = g (x 1 ,…, Xn) f (x 1,…, xn) ∑ j = 1 n ∂ g ∂ xj (x 1,…, xn) 2 d V, {\ Displaystyle \ int \ lim c’est _ {y = g (x_ {1}, \ ldots, x_ {n})} {\ frac {f (x_ {1}, \ ldots, x_ {n})} {\ sqrt {\ sum _ {j = 1} ^ {n} {\ frac {\ partial g} {\ partial x_ {j}}} (x_ {1}, \ ldots, x_ {n}) ^ {2}}}} \, dV,}
où l’intégrale est sur toute la solution (n – 1) dimensionnelle de l’équation en indice et le dV symbolique doit être remplacé par une paramétrisation de cette solution pour un calcul particulier; les variables x1, …, xn sont alors bien sûr des fonctions de cette paramétrisation.
Ceci dérive de la représentation suivante, peut-être plus intuitive: Supposons que x est une variable aléatoire à n dimensions avec une densité conjointe f. Si y = H (x), où H est une fonction bijective, différentiable, alors y a une densité g:
g (y) = f (H – 1 (y)) | det | {\ displaystyle g (\ mathbf {y}) = f {\ Big (} H ^ {- 1} (\ mathbf {y}) {\ Big)} \ left \ vert \ det \ left \ right \ vert}
avec le différentiel considéré comme le jacobien de l’inverse de H (.), évalué en y.
g (y 1, y 2) = f X 1, X 2 (H 1 – 1 (y 1, y 2), H 2 – 1 (y 1, y 2)) | ∂ H 1 – 1 ∂ y 1 ∂ H 2 – 1 ∂ y 2 – ∂ H 1 – 1 ∂ y 2 ∂ H 2 – 1 ∂ y 1 | . {\ displaystyle g (y_ {1}, y_ {2}) = f_ {X_ {1}, X_ {2}} {\ big (} H_ {1} ^ {- 1} (y_ {1}, y_ { 2}), H_ {2} ^ {- 1} (y_ {1}, y_ {2}) {\ big)} \ left \ vert {\ frac {\ partial H_ {1} ^ {- 1}} { \ partial y_ {1}}} {\ frac {\ partial H_ {2} ^ {- 1}} {\ partial y_ {2}}} – {\ frac {\ partial H_ {1} ^ {- 1}} {\ partial y_ {2}}} {\ frac {\ partial H_ {2} ^ {- 1}} {\ partial y_ {1}}} \ right \ vert.}
Vector to scalarEdit
f Y (y) = ∫ R nf X (x) δ (y – V (x)) dx. {\ displaystyle f_ {Y} (y) = \ int _ {{\ mathbb {R}} ^ {n}} f_ {X} (\ mathbf {x}) \ delta {\ big (} yV (\ mathbf { x}) {\ big)} \, d \ mathbf {x}.}
Ce résultat conduit à la loi du statisticien inconscient:
EY = ∫ R yf Y (y) dy = ∫ R y ∫ R nf X (x) δ (y – V (x)) dxdy = ∫ R n ∫ R yf X (x) δ (y – V (x)) dydx = ∫ R n V (x) f X ( x) dx = EX .{\ displaystyle \ operatorname {E} _ {Y} = \ int _ {\ mathbb {R}} yf_ {Y} (y) dy = \ int _ {\ mathbb {R}} y \ int _ {{\ mathbb {R}} ^ {n}} f_ {X} (\ mathbf {x}) \ delta {\ big (} yV (\ mathbf {x}) {\ big)} \, d \ mathbf {x} dy = \ int _ {{\ mathbb {R}} ^ {n}} \ int _ {\ mathbb {R}} yf_ {X} (\ mathbf {x}) \ delta {\ big (} yV (\ mathbf {x }) {\ big)} \, dyd \ mathbf {x} = \ int _ {{\ mathbb {R}} ^ {n}} V (\ mathbf {x}) f_ {X} (\ mathbf {x} ) d \ mathbf {x} = \ operatorname {E} _ {X}.}
Preuve:
H (Z, X) = = {\ displaystyle H (Z, X) = {\ begin { bmatrix} Z + V (X) \\ X \ end {bmatrix}} = {\ begin {bmatrix} Y \\ {\ tilde {X}} \ end {bmatrix}}}.
Il est clair que H {\ displaystyle H} est une cartographie bijective, et le jacobien de H – 1 {\ displaystyle H ^ {- 1}} est donné par:
d H – 1 (y, x ~) dydx ~ = {\ displaystyle {\ frac {dH ^ {- 1} (y, {\ tilde {\ mathbf {x}}})} {dy \, d {\ tilde {\ mathbf {x}} }}} = {\ begin {bmatrix} 1 & – {\ frac {dV ({\ tilde {\ mathbf {x}}})} {d {\ tilde {\ mathbf {x}}}}} \\\ mathbf {0} _ {n \ times 1} & \ mathbf {I} _ {n \ times n} \ end {bmatrix }}},
qui est une matrice triangulaire supérieure avec des uns sur la diagonale principale, donc son déterminant est 1. En appliquant le changement de théorème de variable de la section précédente, nous obtenons que
f Y, X (y, x) = f X (x) δ (y – V (x)) {\ Displaystyle f_ {Y, X} (y, x) = f_ {X} (\ mathbf {x}) \ delta {\ big (} yV (\ mathbf {x}) {\ big)}},
qui, s’il est marginalisé sur x {\ displaystyle x}, conduit à la fonction de densité de probabilité souhaitée.