Wenn die Wahrscheinlichkeitsdichtefunktion einer Zufallsvariablen (oder eines Vektors) X als fX (x) angegeben wird, ist es möglich (aber oft nicht erforderlich; siehe unten), die zu berechnen Wahrscheinlichkeitsdichtefunktion einer Variablen Y = g (X). Dies wird auch als „Änderung der Variablen“ bezeichnet und wird in der Praxis verwendet, um eine Zufallsvariable mit beliebiger Form fg (X) = fY unter Verwendung eines bekannten (zum Beispiel einheitlichen) Zufallszahlengenerators zu erzeugen.
Es ist verlockend zu glauben, dass man, um den erwarteten Wert E (g (X)) zu finden, zuerst die Wahrscheinlichkeitsdichte fg (X) der neuen Zufallsvariablen Y = g (X) finden muss. p> E (g (X)) = ∫ – ∞ ∞ yfg (X) (y) dy, {\ displaystyle \ operatorname {E} {\ big (} g (X) {\ big)} = \ int _ {- \ infty} ^ {\ infty} yf_ {g (X)} (y) \, dy,}
kann man stattdessen
E (g (X)) = ∫ – ∞ ∞ g finden (x) f X (x) dx. {\ displaystyle \ operatorname {E} {\ big (} g (X) {\ big)} = \ int _ {- \ infty} ^ {\ infty} g (x) f_ {X} (x) \, dx.}
Die Werte der beiden Integrale sind in allen Fällen gleich, in denen sowohl X als auch g (X) tatsächlich Wahrscheinlichkeitsdichtefunktionen haben. Es ist nicht erforderlich, dass g a ist Eins-zu-Eins-Funktion. In einigen Fällen wird das letztere Integral viel einfacher berechnet als das erstere. Siehe Gesetz der Un bewusster Statistiker.
Skalar zu SkalarEdit
Sei g: R → R {\ Anzeigestil g: {\ mathbb {R}} \ rightarrow {\ mathbb {R}}} a monotone Funktion, dann ist die resultierende Dichtefunktion fY (y) = fX (g – 1 (y)) | d d y (g – 1 (y)) | . {\ displaystyle f_ {Y} (y) = f_ {X} {\ big (} g ^ {- 1} (y) {\ big)} \ left | {\ frac {d} {dy}} {\ big (} g ^ {- 1} (y) {\ big)} \ right |.}
Hier bezeichnet g – 1 die Umkehrfunktion.
Dies folgt aus der Tatsache, dass die Wahrscheinlichkeit in enthalten ist Ein Differentialbereich muss bei Änderung von Variablen unveränderlich sein. Das heißt,
| f Y (y) d y | = | f X (x) d x | , {\ displaystyle \ left | f_ {Y} (y) \, dy \ right | = \ left | f_ {X} (x) \, dx \ right |,}
oder
f Y ( y) = | d x d y | f X (x) = | d d y (x) | f X (x) = | d d y (g – 1 (y)) | f X (g – 1 (y)) = | (g – 1) ‚(y) | ⋅ f X (g – 1 (y)). {\ displaystyle f_ {Y} (y) = \ left | {\ frac {dx} {dy}} \ right | f_ {X} (x) = \ left | {\ frac {d} {dy}} (x ) \ right | f_ {X} (x) = \ left | {\ frac {d} {dy}} {\ big (} g ^ {- 1} (y) {\ big)} \ right | f_ {X. } {\ big (} g ^ {- 1} (y) {\ big)} = {{\ big |} {\ big (} g ^ {- 1} {\ big)} „(y) {\ big |}} \ cdot f_ {X} {\ big (} g ^ {- 1} (y) {\ big)}.}
Für Funktionen, die nicht monoton sind, ist die Wahrscheinlichkeitsdichtefunktion für y
∑ k = 1 n (y) | ddygk – 1 (y) | ⋅ f X (gk – 1 (y)), {\ displaystyle \ sum _ {k = 1} ^ {n (y)} \ left | {\ frac {d} {dy}} g_ {k} ^ {- 1} (y) \ right | \ cdot f_ {X} {\ big (} g_ {k} ^ {- 1} (y) {\ big)},}
Vector to vectorEdit
Die obigen Formeln können abhängig von mehr als einer anderen Variablen auf Variablen verallgemeinert werden (die wir wieder y nennen werden). f (x1, …, xn) soll die Wahrscheinlichkeitsdichtefunktion der Variablen bezeichnen, von denen y abhängt, und die Abhängigkeit soll y = g (x1,…, xn) sein. Dann ist die resultierende Dichtefunktion
∫ y = g (x 1) ,…, Xn) f (x 1,…, xn) ∑ j = 1 n ∂ g ∂ xj (x 1,…, xn) 2 d V, {\ displaystyle \ int \ lim seine _ {y = g (x_ {1}, \ ldots, x_ {n})} {\ frac {f (x_ {1}, \ ldots, x_ {n})} {\ sqrt {\ sum _ {j = 1} ^ {n} {\ frac {\ partielles g} {\ partielles x_ {j}}} (x_ {1}, \ ldots, x_ {n}) ^ {2}}} \, dV,}
wobei das Integral über der gesamten (n – 1) -dimensionalen Lösung der tiefgestellten Gleichung liegt und die symbolische dV durch eine Parametrisierung dieser Lösung für eine bestimmte Berechnung ersetzt werden muss; Die Variablen x1, …, xn sind dann natürlich Funktionen dieser Parametrisierung.
Dies ergibt sich aus der folgenden, möglicherweise intuitiveren Darstellung: Angenommen, x ist eine n-dimensionale Zufallsvariable mit der Gelenkdichte f. Wenn y = H (x) ist, wobei H eine bijektive, differenzierbare Funktion ist, dann hat y die Dichte g: g (y) = f (H – 1 (y)) | det | {\ displaystyle g (\ mathbf {y}) = f {\ Big (} H ^ {- 1} (\ mathbf {y}) {\ Big)} \ left \ vert \ det \ left \ right \ vert}
mit dem Differential, das als Jacobi der Umkehrung von H (.) angesehen wird, bewertet bei y. g (y 1, y 2) = f X 1, X 2 (H 1 – 1 (y 1, y 2), H 2 – 1 (y 1, y 2)) | ∂ H 1 – 1 ∂ y 1 ∂ H 2 – 1 ∂ y 2 – ∂ H 1 – 1 ∂ y 2 ∂ H 2 – 1 ∂ y 1 | . {\ displaystyle g (y_ {1}, y_ {2}) = f_ {X_ {1}, X_ {2}} {\ big (} H_ {1} ^ {- 1} (y_ {1}, y_ { 2}), H_ {2} ^ {- 1} (y_ {1}, y_ {2}) {\ big)} \ left \ vert {\ frac {\ partielle H_ {1} ^ {- 1}} { \ partielle y_ {1}}} {\ frac {\ partielle H_ {2} ^ {- 1}} {\ partielle y_ {2}}} – {\ frac {\ partielle H_ {1} ^ {- 1}} {\ partielle y_ {2}}} {\ frac {\ partielle H_ {2} ^ {- 1}} {\ partielle y_ {1}}} \ right \ vert.}
Vektor zu scalarEdit
f Y (y) = ∫ R nf X (x) δ (y – V (x)) dx. {\ displaystyle f_ {Y} (y) = \ int _ {{\ mathbb {R}} ^ {n}} f_ {X} (\ mathbf {x}) \ delta {\ big (} yV (\ mathbf { x}) {\ big)} \, d \ mathbf {x}.}
Dieses Ergebnis führt zum Gesetz des unbewussten Statistikers:
EY = ∫ R yf Y (y) dy = ∫ R. y ∫ R nf X (x) δ (y – V (x)) dxdy = ∫ R n ∫ R yf X (x) δ (y – V (x)) dydx = ∫ R n V (x) f X ( x) dx = EX .{\ displaystyle \ operatorname {E} _ {Y} = \ int _ {\ mathbb {R}} yf_ {Y} (y) dy = \ int _ {\ mathbb {R}} y \ int _ {{\ mathbb {R}} ^ {n}} f_ {X} (\ mathbf {x}) \ delta {\ big (} yV (\ mathbf {x}) {\ big)} \, d \ mathbf {x} dy = \ int _ {{\ mathbb {R}} ^ {n}} \ int _ {\ mathbb {R}} yf_ {X} (\ mathbf {x}) \ delta {\ big (} yV (\ mathbf {x }) {\ big)} \, dyd \ mathbf {x} = \ int _ {{\ mathbb {R}} ^ {n}} V (\ mathbf {x}) f_ {X} (\ mathbf {x} ) d \ mathbf {x} = \ operatorname {E} _ {X}.}
Beweis:
H (Z, X) = = {\ displaystyle H (Z, X) = {\ begin { bmatrix} Z + V (X) \\ X \ end {bmatrix}} = {\ begin {bmatrix} Y \\ {\ tilde {X}} \ end {bmatrix}}}.
Es ist klar, dass H {\ displaystyle H} eine bijektive Abbildung ist und der Jacobi von H – 1 {\ displaystyle H ^ {- 1}} gegeben ist durch:
d H – 1 (y, x ~) dydx ~ = {\ displaystyle {\ frac {dH ^ {- 1} (y, {\ tilde {\ mathbf {x}}})} {dy \, d {\ tilde {\ mathbf {x}} }}} = {\ begin {bmatrix} 1 & – {\ frac {dV ({\ tilde {\ mathbf {x}}})} {d {\ tilde {\ mathbf {x}}}} \\\ mathbf {0} _ {n \ times 1} & \ mathbf {I} _ {n \ times n} \ end {bmatrix }}},
ist eine obere Dreiecksmatrix mit Einsen auf der Hauptdiagonale, daher ist ihre Determinante 1. Wenn wir die Änderung des Variablensatzes aus dem vorherigen Abschnitt anwenden, erhalten wir, dass
f Y, X (y, x) = f X (x) δ (y – V (x)) {\ Anzeigestil f_ {Y, X} (y, x) = f_ {X} (\ mathbf {x}) \ delta {\ big (} yV (\ mathbf {x}) {\ big)}},
was, wenn es über x {\ displaystyle x} marginalisiert wird, zur gewünschten Wahrscheinlichkeitsdichtefunktion führt.