Si la función de densidad de probabilidad de una variable aleatoria (o vector) X se da como fX (x), es posible (pero a menudo no es necesario; ver más abajo) calcular la función de densidad de probabilidad de alguna variable Y = g (X). Esto también se denomina «cambio de variable» y en la práctica se utiliza para generar una variable aleatoria de forma arbitraria fg (X) = fY utilizando un generador de números aleatorios conocido (por ejemplo, uniforme).
Es tentador pensar que para encontrar el valor esperado E (g (X)), primero se debe encontrar la densidad de probabilidad fg (X) de la nueva variable aleatoria Y = g (X). Sin embargo, en lugar de calcular
E (g (X)) = ∫ – ∞ ∞ yfg (X) (y) dy, {\ Displaystyle \ operatorname {E} {\ big (} g (X) {\ big)} = \ int _ {- \ infty} ^ {\ infty} yf_ {g (X)} (y) \, dy,}
uno puede encontrar en su lugar
E (g (X)) = ∫ – ∞ ∞ g (x) f X (x) dx. {\ Displaystyle \ operatorname {E} {\ big (} g (X) {\ big)} = \ int _ {- \ infty} ^ {\ infty} g (x) f_ {X} (x) \, dx.}
Los valores de las dos integrales son los mismos en todos los casos en los que tanto X como g (X) tienen funciones de densidad de probabilidad. No es necesario que g sea un función uno a uno. En algunos casos, la última integral se calcula mucho más fácilmente que la primera. Ver Ley de la un estadístico consciente.
Escalar a escalarEditar
Sea g: R → R {\ displaystyle g: {\ mathbb {R}} \ rightarrow {\ mathbb {R}}} ser un función monótona, entonces la función de densidad resultante es
f Y (y) = f X (g – 1 (y)) | d d y (g – 1 (y)) | . {\ Displaystyle f_ {Y} (y) = f_ {X} {\ big (} g ^ {- 1} (y) {\ big)} \ left | {\ frac {d} {dy}} {\ big (} g ^ {- 1} (y) {\ big)} \ right |.}
Aquí g − 1 denota la función inversa.
Esto se deriva del hecho de que la probabilidad contenida en un área diferencial debe ser invariante ante cambios de variables. Es decir,
| f Y (y) d y | = | f X (x) d x | , {\ Displaystyle \ left | f_ {Y} (y) \, dy \ right | = \ left | f_ {X} (x) \, dx \ right |,}
o
f Y ( y) = | d x d y | f X (x) = | d d y (x) | f X (x) = | d d y (g – 1 (y)) | f X (g – 1 (y)) = | (g – 1) ′ (y) | ⋅ f X (g – 1 (y)). {\ Displaystyle f_ {Y} (y) = \ left | {\ frac {dx} {dy}} \ right | f_ {X} (x) = \ left | {\ frac {d} {dy}} (x ) \ right | f_ {X} (x) = \ left | {\ frac {d} {dy}} {\ big (} g ^ {- 1} (y) {\ big)} \ right | f_ {X } {\ big (} g ^ {- 1} (y) {\ big)} = {{\ big |} {\ big (} g ^ {- 1} {\ big)} «(y) {\ big |}} \ cdot f_ {X} {\ big (} g ^ {- 1} (y) {\ big)}.}
Para funciones que no son monótonas, la función de densidad de probabilidad para y es
∑ k = 1 norte (y) | ddygk – 1 (y) | ⋅ f X (gk – 1 (y)), {\ Displaystyle \ sum _ {k = 1} ^ {n (y)} \ left | {\ frac {d} {dy}} g_ {k} ^ {- 1} (y) \ right | \ cdot f_ {X} {\ big (} g_ {k} ^ {- 1} (y) {\ big)},}
Vector a vectorEdit
Las fórmulas anteriores se pueden generalizar a variables (que llamaremos nuevamente y) dependiendo de más de una variable. f (x1, …, xn) denotará la función de densidad de probabilidad de las variables de las que depende y, y la dependencia será y = g (x1,…, xn). Entonces, la función de densidad resultante es
∫ y = g (x 1 ,…, Xn) f (x 1,…, xn) ∑ j = 1 norte ∂ sol ∂ xj (x 1,…, xn) 2 re V, {\ Displaystyle \ int \ lim es _ {y = g (x_ {1}, \ ldots, x_ {n})} {\ frac {f (x_ {1}, \ ldots, x_ {n})} {\ sqrt {\ sum _ {j = 1} ^ {n} {\ frac {\ g parcial} {\ parcial x_ {j}}} (x_ {1}, \ ldots, x_ {n}) ^ {2}}}} \, dV,}
donde la integral está sobre toda la solución (n – 1) dimensional de la ecuación subindicada y el dV simbólico debe ser reemplazado por una parametrización de esta solución para un cálculo en particular; las variables x1, …, xn son entonces, por supuesto, funciones de esta parametrización.
Esto se deriva de la siguiente representación, quizás más intuitiva: Suponga que x es una variable aleatoria de n dimensiones con densidad conjunta f. Si y = H (x), donde H es una función diferenciable biyectiva, entonces y tiene densidad g:
g (y) = f (H – 1 (y)) | det | {\ Displaystyle g (\ mathbf {y}) = f {\ Big (} H ^ {- 1} (\ mathbf {y}) {\ Big)} \ left \ vert \ det \ left \ right \ vert}
con el diferencial considerado como el jacobiano de la inversa de H (.), evaluado en y.
g (y 1, y 2) = f X 1, X 2 (H 1 – 1 (y 1, y 2), H 2 – 1 (y 1, y 2)) | ∂ H 1 – 1 ∂ y 1 ∂ H 2 – 1 ∂ y 2 – ∂ H 1 – 1 ∂ y 2 ∂ H 2 – 1 ∂ y 1 | . {\ Displaystyle g (y_ {1}, y_ {2}) = f_ {X_ {1}, X_ {2}} {\ big (} H_ {1} ^ {- 1} (y_ {1}, y_ { 2}), H_ {2} ^ {- 1} (y_ {1}, y_ {2}) {\ big)} \ left \ vert {\ frac {\ parcial H_ {1} ^ {- 1}} { \ y parcial_ {1}}} {\ frac {\ parcial H_ {2} ^ {- 1}} {\ parcial y_ {2}}} – {\ frac {\ parcial H_ {1} ^ {- 1}} {\ parcial y_ {2}}} {\ frac {\ parcial H_ {2} ^ {- 1}} {\ parcial y_ {1}}} \ derecha \ vert.}
Vector a escalarEdit
f Y (y) = ∫ R nf X (x) δ (y – V (x)) dx. {\ Displaystyle f_ {Y} (y) = \ int _ {{\ mathbb {R}} ^ {n}} f_ {X} (\ mathbf {x}) \ delta {\ big (} yV (\ mathbf { x}) {\ big)} \, d \ mathbf {x}.}
Este resultado conduce a la Ley del estadístico inconsciente:
EY = ∫ R yf Y (y) dy = ∫ R y ∫ R nf X (x) δ (y – V (x)) dxdy = ∫ R n ∫ R yf X (x) δ (y – V (x)) dydx = ∫ R n V (x) f X ( x) dx = EX .{\ Displaystyle \ operatorname {E} _ {Y} = \ int _ {\ mathbb {R}} yf_ {Y} (y) dy = \ int _ {\ mathbb {R}} y \ int _ {{\ mathbb {R}} ^ {n}} f_ {X} (\ mathbf {x}) \ delta {\ big (} yV (\ mathbf {x}) {\ big)} \, d \ mathbf {x} dy = \ int _ {{\ mathbb {R}} ^ {n}} \ int _ {\ mathbb {R}} yf_ {X} (\ mathbf {x}) \ delta {\ big (} yV (\ mathbf {x }) {\ big)} \, dyd \ mathbf {x} = \ int _ {{\ mathbb {R}} ^ {n}} V (\ mathbf {x}) f_ {X} (\ mathbf {x} ) d \ mathbf {x} = \ operatorname {E} _ {X}.}
Prueba:
H (Z, X) = = {\ displaystyle H (Z, X) = {\ begin { bmatrix} Z + V (X) \\ X \ end {bmatrix}} = {\ begin {bmatrix} Y \\ {\ tilde {X}} \ end {bmatrix}}}.
Está claro que H {\ displaystyle H} es un mapeo biyectivo, y el jacobiano de H – 1 {\ displaystyle H ^ {- 1}} viene dado por:
d H – 1 (y, x ~) dydx ~ = {\ displaystyle {\ frac {dH ^ {- 1} (y, {\ tilde {\ mathbf {x}}})} {dy \, d {\ tilde {\ mathbf {x}} }}} = {\ begin {bmatrix} 1 & – {\ frac {dV ({\ tilde {\ mathbf {x}}})} {d {\ tilde {\ mathbf {x}}}}} \\\ mathbf {0} _ {n \ times 1} & \ mathbf {I} _ {n \ times n} \ end {bmatrix }}},
que es una matriz triangular superior con unos en la diagonal principal, por lo que su determinante es 1. Aplicando el teorema del cambio de variable de la sección anterior obtenemos que
f Y, X (y, x) = f X (x) δ (y – V (x)) {\ displaystyle f_ {Y, X} (y, x) = f_ {X} (\ mathbf {x}) \ delta {\ big (} yV (\ mathbf {x}) {\ big)}},
que si se margina sobre x {\ displaystyle x} conduce a la función de densidad de probabilidad deseada.