Funkcja gęstości prawdopodobieństwa

Jeśli funkcja gęstości prawdopodobieństwa zmiennej losowej (lub wektora) X jest podana jako fX (x), możliwe jest (ale często nie jest to konieczne; patrz poniżej) funkcja gęstości prawdopodobieństwa pewnej zmiennej Y = g (X). Nazywa się to również „zmianą zmiennej” i jest w praktyce używane do generowania zmiennej losowej o dowolnym kształcie fg (X) = fY przy użyciu znanego (na przykład jednolitego) generatora liczb losowych.

kusi, by pomyśleć, że aby znaleźć wartość oczekiwaną E (g (X)), należy najpierw znaleźć gęstość prawdopodobieństwa fg (X) nowej zmiennej losowej Y = g (X). Jednak zamiast obliczać

E ⁡ (g (X)) = ∫ – ∞ ∞ yfg (X) (y) dy, {\ Displaystyle \ operatorname {E} {\ duży (} g (X) {\ duży)} = \ int _ {- \ infty} ^ {\ infty} yf_ {g (X)} (y) \, dy,}

zamiast tego można znaleźć

E ⁡ (g (X)) = ∫ – ∞ ∞ g (x) fa X (x) dx. {\ displaystyle \ operatorname {E} {\ duży (} g (X) {\ duży)} = \ int _ {- \ infty} ^ {\ infty} g (x) f_ {X} (x) \, dx.}

Wartości dwóch całek są takie same we wszystkich przypadkach, w których oba X i g (X) mają faktycznie funkcje gęstości prawdopodobieństwa. Nie jest konieczne, aby g było a funkcja jeden do jednego. W niektórych przypadkach druga całka jest obliczana znacznie łatwiej niż poprzednia. Zobacz prawo un świadomy statystyk.

Skalarny do skalarnyEdytuj

Niech g: R → R {\ displaystyle g: {\ mathbb {R}} \ rightarrow {\ mathbb {R}}} będzie funkcja monotoniczna, to wynikowa funkcja gęstości to

f Y (y) = f X (g – 1 (y)) | d d y (g – 1 (y)) | . {\ Displaystyle f_ {Y} (y) = f_ {X} {\ duży (} g ^ {- 1} (y) {\ duży)} \ lewo | {\ Frac {d} {dy}} {\ duży (} g ^ {- 1} (y) {\ big)} \ right |.}

Tutaj g − 1 oznacza funkcję odwrotną.

Wynika to z faktu, że prawdopodobieństwo zawarte w powierzchnia różniczkowa musi być niezmienna przy zmianie zmiennych. To znaczy

| f Y (y) d y | = | f X (x) d x | , {\ Displaystyle \ lewo | f_ {Y} (y) \, dy \ prawo | = \ lewo | f_ {X} (x) \, dx \ w prawo |,}

lub

f Y ( y) = | d x d y | f X (x) = | d d y (x) | f X (x) = | d d y (g – 1 (y)) | f X (g – 1 (y)) = | (g – 1) ′ (y) | ⋅ f X (g – 1 (y)). {\ Displaystyle f_ {Y} (r) = \ lewo | {\ Frac {dx} {dy}} \ prawo | f_ {X} (x) = \ lewo | {\ Frac {d} {dy}} (x ) \ right | f_ {X} (x) = \ left | {\ frac {d} {dy}} {\ big (} g ^ {- 1} (y) {\ big)} \ right | f_ {X } {\ big (} g ^ {- 1} (y) {\ big)} = {{\ big |} {\ big (} g ^ {- 1} {\ big)} „(y) {\ big |}} \ cdot f_ {X} {\ big (} g ^ {- 1} (y) {\ big)}.}

W przypadku funkcji, które nie są monotoniczne, funkcja gęstości prawdopodobieństwa dla y wynosi

∑ k = 1 n (r) | ddygk – 1 (r) | ⋅ fa X (gk – 1 (r)), {\ Displaystyle \ suma _ {k = 1} ^ {n (r)} \ lewo | {\ frac {d} {dy}} g_ {k} ^ {- 1} (y) \ right | \ cdot f_ {X} {\ big (} g_ {k} ^ {- 1} (y) {\ big)},}

Vector to vectorEdit

Powyższe formuły można uogólnić na zmienne (które ponownie nazwiemy y) w zależności od więcej niż jednej innej zmiennej. f (x1, …, xn) będzie oznaczać funkcję gęstości prawdopodobieństwa zmiennych, od których zależy y, a zależność będzie wynosić y = g (x1,…, xn). Wtedy otrzymana funkcja gęstości to

∫ y = g (x 1 ,…, Xn) fa (x 1,…, xn) ∑ j = 1 n ∂ g ∂ xj (x 1,…, xn) 2 re V, {\ displaystyle \ int \ lim jego _ {y = g (x_ {1}, \ ldots, x_ {n})} {\ frac {f (x_ {1}, \ ldots, x_ {n})} {\ sqrt {\ sum _ {j = 1} ^ {n} {\ frac {\ częściowe g} {\ częściowe x_ {j}}} (x_ {1}, \ ldots, x_ {n}) ^ {2}}}} \, dV,}

gdzie całka jest po całym (n – 1) -wymiarowym rozwiązaniu równania z indeksem dolnym, a symboliczne dV należy zastąpić parametryzacją tego rozwiązania dla konkretnego obliczenia; zmienne x1, …, xn są więc oczywiście funkcjami tej parametryzacji.

Wywodzi się to z następującej, być może bardziej intuicyjnej reprezentacji: Załóżmy, że x jest n-wymiarową zmienną losową o gęstości złącza f. Jeśli y = H (x), gdzie H jest bijektywną funkcją różniczkowalną, to y ma gęstość g:

g (y) = f (H – 1 (y)) | det | {\ Displaystyle g (\ mathbf {y}) = f {\ duży (} H ^ {- 1} (\ mathbf {y}) {\ duży)} \ lewo \ vert \ det \ lewo \ prawo \ vert}

z różniczką uważaną za jakobian odwrotności H (.), obliczoną na y.

g (y 1, y 2) = f X 1, X 2 (H 1 – 1 (y 1, y 2), H 2 – 1 (y 1, y 2)) | ∂ H 1 – 1 ∂ y 1 ∂ H 2 – 1 ∂ y 2 – ∂ H 1 – 1 ∂ y 2 ∂ H 2 – 1 ∂ y 1 | . {\ Displaystyle g (r_ {1}, y_ {2}) = f_ {X_ {1}, X_ {2}} {\ duży (} H_ {1} ^ {- 1} (y_ {1}, y_ { 2}), H_ {2} ^ {- 1} (y_ {1}, y_ {2}) {\ big)} \ left \ vert {\ frac {\ częściowe H_ {1} ^ {- 1}} { \ częściowe y_ {1}}} {\ frac {\ częściowe H_ {2} ^ {- 1}} {\ częściowe y_ {2}}} – {\ frac {\ częściowe H_ {1} ^ {- 1}} {\ częściowe y_ {2}}} {\ frac {\ częściowe H_ {2} ^ {- 1}} {\ częściowe y_ {1}}} \ right \ vert.}

Vector to scalarEdit

f Y (y) = ∫ R nf X (x) δ (y – V (x)) dx. {\ Displaystyle f_ {Y} (r) = \ int _ {{\ mathbb {R}} ^ {n}} f_ {X} (\ mathbf {x}) \ delta {\ big (} yV (\ mathbf { x}) {\ big)} \, d \ mathbf {x}.}

Wynik ten prowadzi do prawa nieświadomego statystyki:

EY ⁡ = ∫ R yf Y (y) dy = ∫ R y ∫ R nf X (x) δ (y – V (x)) dxdy = ∫ R n ∫ R yf X (x) δ (y – V (x)) dydx = ∫ R n V (x) f X ( x) dx = EX ⁡.{\ displaystyle \ operatorname {E} _ {y} = \ int _ {\ mathbb {R}} yf_ {Y} (y) dy = \ int _ {\ mathbb {R}} y \ int _ {{\ mathbb {R}} ^ {n}} f_ {X} (\ mathbf {x}) \ delta {\ big (} yV (\ mathbf {x}) {\ big)} \, d \ mathbf {x} dy = \ int _ {{\ mathbb {R}} ^ {n}} \ int _ {\ mathbb {R}} yf_ {X} (\ mathbf {x}) \ delta {\ big (} yV (\ mathbf {x }) {\ big)} \, dyd \ mathbf {x} = \ int _ {{\ mathbb {R}} ^ {n}} V (\ mathbf {x}) f_ {X} (\ mathbf {x} ) d \ mathbf {x} = \ operatorname {E} _ {X}.}

Dowód:

H (Z, X) = = {\ Displaystyle H (Z, X) = {\ zaczynać { bmatrix} Z + V (X) \\ X \ end {bmatrix}} = {\ begin {bmatrix} Y \\ {\ tilde {X}} \ end {bmatrix}}}.

Jest jasne, że H {\ Displaystyle H} jest odwzorowaniem bijektywnym, a jakobian z H – 1 {\ Displaystyle H ^ {- 1}} jest dany przez:

d H – 1 (y, x ~) dydx ~ = {\ Displaystyle {\ Frac {DH ^ {- 1} (y, {\ tylda {\ mathbf {x}}})} {dy \, d {\ tylda {\ mathbf {x}} }}} = {\ begin {bmatrix} 1 & – {\ frac {dV ({\ tilde {\ mathbf {x}}})} {d {\ tilde {\ mathbf {x}}}}} \\\ mathbf {0} _ {n \ times 1} & \ mathbf {I} _ {n \ times n} \ end {bmatrix }}},

która jest górną trójkątną macierzą z jednościami na głównej przekątnej, stąd jej wyznacznik wynosi 1. Stosując zmianę twierdzenia o zmiennej z poprzedniej sekcji otrzymujemy, że

f Y, X (y, x) = fa X (x) δ (r – V (x)) {\ Displaystyle f_ {Y, X} (y, x) = f_ {X} (\ mathbf {x}) \ delta {\ duży (} yV (\ mathbf {x}) {\ duży)}},

co jeśli zmarginalizowane na x {\ Displaystyle x} prowadzi do pożądanej funkcji gęstości prawdopodobieństwa.

Write a Comment

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *