Funkcja gęstości prawdopodobieństwa

Jeśli funkcja gęstości prawdopodobieństwa zmiennej losowej (lub wektora) X jest podana jako fX (x), możliwe jest (ale często nie jest to konieczne; patrz poniżej) funkcja gęstości prawdopodobieństwa pewnej zmiennej Y = g (X). Nazywa się to również „zmianą zmiennej” i jest w praktyce używane do generowania zmiennej losowej o dowolnym kształcie fg (X) = fY przy użyciu znanego (na przykład jednolitego) generatora liczb losowych.

kusi, by pomyśleć, że aby znaleźć wartość oczekiwaną E (g (X)), należy najpierw znaleźć gęstość prawdopodobieństwa fg (X) nowej zmiennej losowej Y = g (X). Jednak zamiast obliczać

E ⁡ (g (X)) = ∫ – ∞ ∞ yfg (X) (y) dy, {\ Displaystyle \ operatorname {E} {\ duży (} g (X) {\ duży)} = \ int _ {- \ infty} ^ {\ infty} yf_ {g (X)} (y) \, dy,}

zamiast tego można znaleźć

E ⁡ (g (X)) = ∫ – ∞ ∞ g (x) fa X (x) dx. {\ displaystyle \ operatorname {E} {\ duży (} g (X) {\ duży)} = \ int _ {- \ infty} ^ {\ infty} g (x) f_ {X} (x) \, dx.}

Wartości dwóch całek są takie same we wszystkich przypadkach, w których oba X i g (X) mają faktycznie funkcje gęstości prawdopodobieństwa. Nie jest konieczne, aby g było a funkcja jeden do jednego. W niektórych przypadkach druga całka jest obliczana znacznie łatwiej niż poprzednia. Zobacz prawo un świadomy statystyk.

Skalarny do skalarnyEdytuj

Niech g: R → R {\ displaystyle g: {\ mathbb {R}} \ rightarrow {\ mathbb {R}}} będzie funkcja monotoniczna, to wynikowa funkcja gęstości to

f Y (y) = f X (g – 1 (y)) | d d y (g – 1 (y)) | . {\ Displaystyle f_ {Y} (y) = f_ {X} {\ duży (} g ^ {- 1} (y) {\ duży)} \ lewo | {\ Frac {d} {dy}} {\ duży (} g ^ {- 1} (y) {\ big)} \ right |.}

Tutaj g − 1 oznacza funkcję odwrotną.

Wynika to z faktu, że prawdopodobieństwo zawarte w powierzchnia różniczkowa musi być niezmienna przy zmianie zmiennych. To znaczy

| f Y (y) d y | = | f X (x) d x | , {\ Displaystyle \ lewo | f_ {Y} (y) \, dy \ prawo | = \ lewo | f_ {X} (x) \, dx \ w prawo |,}

lub

f Y ( y) = | d x d y | f X (x) = | d d y (x) | f X (x) = | d d y (g – 1 (y)) | f X (g – 1 (y)) = | (g – 1) ′ (y) | ⋅ f X (g – 1 (y)). {\ Displaystyle f_ {Y} (r) = \ lewo | {\ Frac {dx} {dy}} \ prawo | f_ {X} (x) = \ lewo | {\ Frac {d} {dy}} (x ) \ right | f_ {X} (x) = \ left | {\ frac {d} {dy}} {\ big (} g ^ {- 1} (y) {\ big)} \ right | f_ {X } {\ big (} g ^ {- 1} (y) {\ big)} = {{\ big |} {\ big (} g ^ {- 1} {\ big)} „(y) {\ big |}} \ cdot f_ {X} {\ big (} g ^ {- 1} (y) {\ big)}.}

W przypadku funkcji, które nie są monotoniczne, funkcja gęstości prawdopodobieństwa dla y wynosi

∑ k = 1 n (r) | ddygk – 1 (r) | ⋅ fa X (gk – 1 (r)), {\ Displaystyle \ suma _ {k = 1} ^ {n (r)} \ lewo | {\ frac {d} {dy}} g_ {k} ^ {- 1} (y) \ right | \ cdot f_ {X} {\ big (} g_ {k} ^ {- 1} (y) {\ big)},}

Vector to vectorEdit

Powyższe formuły można uogólnić na zmienne (które ponownie nazwiemy y) w zależności od więcej niż jednej innej zmiennej. f (x1, …, xn) będzie oznaczać funkcję gęstości prawdopodobieństwa zmiennych, od których zależy y, a zależność będzie wynosić y = g (x1,…, xn). Wtedy otrzymana funkcja gęstości to

∫ y = g (x 1 ,…, Xn) fa (x 1,…, xn) ∑ j = 1 n ∂ g ∂ xj (x 1,…, xn) 2 re V, {\ displaystyle \ int \ lim jego _ {y = g (x_ {1}, \ ldots, x_ {n})} {\ frac {f (x_ {1}, \ ldots, x_ {n})} {\ sqrt {\ sum _ {j = 1} ^ {n} {\ frac {\ częściowe g} {\ częściowe x_ {j}}} (x_ {1}, \ ldots, x_ {n}) ^ {2}}}} \, dV,}

gdzie całka jest po całym (n – 1) -wymiarowym rozwiązaniu równania z indeksem dolnym, a symboliczne dV należy zastąpić parametryzacją tego rozwiązania dla konkretnego obliczenia; zmienne x1, …, xn są więc oczywiście funkcjami tej parametryzacji.

Wywodzi się to z następującej, być może bardziej intuicyjnej reprezentacji: Załóżmy, że x jest n-wymiarową zmienną losową o gęstości złącza f. Jeśli y = H (x), gdzie H jest bijektywną funkcją różniczkowalną, to y ma gęstość g:

g (y) = f (H – 1 (y)) | det | {\ Displaystyle g (\ mathbf {y}) = f {\ duży (} H ^ {- 1} (\ mathbf {y}) {\ duży)} \ lewo \ vert \ det \ lewo \ prawo \ vert}

z różniczką uważaną za jakobian odwrotności H (.), obliczoną na y.

g (y 1, y 2) = f X 1, X 2 (H 1 – 1 (y 1, y 2), H 2 – 1 (y 1, y 2)) | ∂ H 1 – 1 ∂ y 1 ∂ H 2 – 1 ∂ y 2 – ∂ H 1 – 1 ∂ y 2 ∂ H 2 – 1 ∂ y 1 | . {\ Displaystyle g (r_ {1}, y_ {2}) = f_ {X_ {1}, X_ {2}} {\ duży (} H_ {1} ^ {- 1} (y_ {1}, y_ { 2}), H_ {2} ^ {- 1} (y_ {1}, y_ {2}) {\ big)} \ left \ vert {\ frac {\ częściowe H_ {1} ^ {- 1}} { \ częściowe y_ {1}}} {\ frac {\ częściowe H_ {2} ^ {- 1}} {\ częściowe y_ {2}}} – {\ frac {\ częściowe H_ {1} ^ {- 1}} {\ częściowe y_ {2}}} {\ frac {\ częściowe H_ {2} ^ {- 1}} {\ częściowe y_ {1}}} \ right \ vert.}

Vector to scalarEdit

f Y (y) = ∫ R nf X (x) δ (y – V (x)) dx. {\ Displaystyle f_ {Y} (r) = \ int _ {{\ mathbb {R}} ^ {n}} f_ {X} (\ mathbf {x}) \ delta {\ big (} yV (\ mathbf { x}) {\ big)} \, d \ mathbf {x}.}

Wynik ten prowadzi do prawa nieświadomego statystyki:

EY ⁡ = ∫ R yf Y (y) dy = ∫ R y ∫ R nf X (x) δ (y – V (x)) dxdy = ∫ R n ∫ R yf X (x) δ (y – V (x)) dydx = ∫ R n V (x) f X ( x) dx = EX ⁡.{\ displaystyle \ operatorname {E} _ {y} = \ int _ {\ mathbb {R}} yf_ {Y} (y) dy = \ int _ {\ mathbb {R}} y \ int _ {{\ mathbb {R}} ^ {n}} f_ {X} (\ mathbf {x}) \ delta {\ big (} yV (\ mathbf {x}) {\ big)} \, d \ mathbf {x} dy = \ int _ {{\ mathbb {R}} ^ {n}} \ int _ {\ mathbb {R}} yf_ {X} (\ mathbf {x}) \ delta {\ big (} yV (\ mathbf {x }) {\ big)} \, dyd \ mathbf {x} = \ int _ {{\ mathbb {R}} ^ {n}} V (\ mathbf {x}) f_ {X} (\ mathbf {x} ) d \ mathbf {x} = \ operatorname {E} _ {X}.}

Dowód:

H (Z, X) = = {\ Displaystyle H (Z, X) = {\ zaczynać { bmatrix} Z + V (X) \\ X \ end {bmatrix}} = {\ begin {bmatrix} Y \\ {\ tilde {X}} \ end {bmatrix}}}.

Jest jasne, że H {\ Displaystyle H} jest odwzorowaniem bijektywnym, a jakobian z H – 1 {\ Displaystyle H ^ {- 1}} jest dany przez:

d H – 1 (y, x ~) dydx ~ = {\ Displaystyle {\ Frac {DH ^ {- 1} (y, {\ tylda {\ mathbf {x}}})} {dy \, d {\ tylda {\ mathbf {x}} }}} = {\ begin {bmatrix} 1 & – {\ frac {dV ({\ tilde {\ mathbf {x}}})} {d {\ tilde {\ mathbf {x}}}}} \\\ mathbf {0} _ {n \ times 1} & \ mathbf {I} _ {n \ times n} \ end {bmatrix }}},

która jest górną trójkątną macierzą z jednościami na głównej przekątnej, stąd jej wyznacznik wynosi 1. Stosując zmianę twierdzenia o zmiennej z poprzedniej sekcji otrzymujemy, że

f Y, X (y, x) = fa X (x) δ (r – V (x)) {\ Displaystyle f_ {Y, X} (y, x) = f_ {X} (\ mathbf {x}) \ delta {\ duży (} yV (\ mathbf {x}) {\ duży)}},

co jeśli zmarginalizowane na x {\ Displaystyle x} prowadzi do pożądanej funkcji gęstości prawdopodobieństwa.

Volta

Funkcja gęstości prawdopodobieństwa

Skalarny do skalarnyEdytuj

Vector to vectorEdit

Vector to scalarEdit

Write a Comment Anuluj pisanie odpowiedzi

Skalarny do skalarnyEdytuj

Vector to vectorEdit

Vector to scalarEdit

You may also like these posts

Ginewra

Te pudry do twarzy nowej generacji pomogą Ci zachować blask przez całe lato

Formularz sprawdzania przeszłości kryminalnej FBI – Formularz I-783

Write a Comment Anuluj pisanie odpowiedzi