Motywujący przykład w kontekście założenia choroby rzadkiejEdytuj
Wyobraź sobie rzadką chorobę, która dotyka, powiedzmy, tylko jedną na wiele tysięcy dorosłych w kraj. Wyobraź sobie, że podejrzewamy, że narażenie na coś (powiedzmy, że doznałeś szczególnego urazu w dzieciństwie) zwiększa prawdopodobieństwo wystąpienia tej choroby w wieku dorosłym. Najbardziej pouczającą rzeczą do obliczenia byłby współczynnik ryzyka, RR. Aby to zrobić w idealnym przypadku, musielibyśmy wiedzieć, czy wszyscy dorośli w populacji (a) byli narażeni na uraz jako dzieci i (b) czy rozwinęli chorobę jako dorośli. Z tego wyodrębnilibyśmy następujące informacje: całkowita liczba osób narażonych na obrażenia z dzieciństwa, NE, {\ Displaystyle N_ {E},} z których DE {\ Displaystyle D_ {E}} rozwinął chorobę i ON {\ displaystyle H_ {E}} pozostał zdrowy; a całkowita liczba osób nie narażonych, N N, {\ Displaystyle N_ {N},} z których D N {\ Displaystyle D_ {N}} rozwinęła chorobę i H N {\ Displaystyle H_ {N}} pozostał zdrowy. Ponieważ NE = DE + HE {\ Displaystyle N_ {E} = D_ {E} + H_ {E}} i podobnie dla liczb NN {\ Displaystyle N_ {N}}, mamy tylko cztery niezależne liczby, które możemy zorganizować w tabeli:
Chory zdrowy narażony DEHE nie narażony DNHN {\ displaystyle {\ zaczynać {tablica} {| r | cc |} \ hline & {\ tekst {Chory }} & {\ text {Zdrowy}} \\\ hline {\ text {Exposed}} & {D_ {E}} & {H_ {E}} \\ {\ text {Nie narażone}} & {D_ {N}} & {H_ {N}} \\\ hline \ end {array}}}
Aby uniknąć nieporozumień, podkreślamy, że wszystkie te liczby odnoszą się do całej populacji, a nie do jakiejś próbki z tego.
RR = DE / NEDN / NN, {\ Displaystyle RR = {\ Frac {D_ {E} / N_ {E}} {D_ {N} / N_ {N}}} \ ,,}
który można przepisać jako RR = DENNDNNE = DE / DNNE / NN. {\ Displaystyle RR = {\ Frac {D_ {E} N_ {N}} {D_ {N} N_ {E}}} = {\ Frac {D_ {E} / D_ {N}} {N_ {E} / N_ {N}}}.}
LUB = DE / HEDN / HN, {\ Displaystyle OR = {\ Frac {D_ {E} / H_ {E}} {D_ {N} / H_ {N}} } \ ,,}, które można przepisać na OR = DEHNDNHE = DE / DNHE / HN. {\ Displaystyle OR = {\ Frac {D_ {E} H_ {N}} {D_ {N} H_ {E}}} = {\ Frac {D_ {E} / D_ {N}} {H_ {E} / H_ {N}}}.}
Często możemy rozwiązać ten problem, stosując losowe próbkowanie populacji: a mianowicie, jeśli ani choroba, ani narażenie na uraz nie są zbyt rzadkie w naszej populacji, to możemy wybrać (powiedzmy ) losowo sto osób i znajdź te cztery liczby w tej próbce; zakładając, że próbka jest wystarczająco reprezentatywna dla populacji, wówczas RR obliczony dla tej próbki będzie dobrym szacunkiem dla RR dla całej populacji.
Jednak niektóre choroby mogą być tak rzadkie, że z dużym prawdopodobieństwem , nawet duża próba losowa może nie zawierać ani jednego chorego osobnika (lub może zawierać część, ale zbyt mało, aby była statystycznie istotna). To uniemożliwiłoby obliczenie RR. Niemniej jednak możemy oszacować OR, pod warunkiem, że w przeciwieństwie do choroby narażenie na obrażenia w dzieciństwie nie jest zbyt rzadkie. Oczywiście, ponieważ choroba jest rzadka, jest to również nasza ocena RR.
Patrząc na końcowe wyrażenie OR: ułamek w liczniku, DE / DN, {\ displaystyle D_ { E} / D_ {N},} możemy oszacować, zbierając wszystkie znane przypadki choroby (przypuszczalnie muszą być jakieś, w przeciwnym razie prawdopodobnie nie przeprowadzilibyśmy badania w pierwszej kolejności) i sprawdzając, ile z nich chorzy mieli ekspozycję, a ilu jej nie. A ułamek w mianowniku, HE / HN, {\ displaystyle H_ {E} / H_ {N},} to prawdopodobieństwo, że zdrowa osoba w populacji została narażona do obrażeń w dzieciństwie. Zwróćmy teraz uwagę, że te drugie szanse rzeczywiście mogą być oszacowane przez losowe próbkowanie populacji – pod warunkiem, jak powiedzieliśmy, że rozpowszechnienie narażenia na obrażenia w dzieciństwie nie jest zbyt małe, tak że losowa próbka możliwy do opanowania rozmiar prawdopodobnie obejmowałby sporą liczbę osób, które były narażone. W tym przypadku choroba występuje bardzo rzadko, ale przyczynianie się do tego nie jest takie rzadkie; takie sytuacje są dość powszechne w praktyce.
W ten sposób możemy oszacować OR, a następnie, powołując się ponownie na założenie rzadkiej choroby, mówimy, że jest to również dobre przybliżenie RR. Nawiasem mówiąc, scenariusz opisany powyżej jest paradygmatycznym przykładem badania kliniczno-kontrolnego.
Definicja w kategoriach szans grupowychEdytuj
Iloraz szans to iloraz szans zdarzenie w jednej grupie z prawdopodobieństwem wystąpienia zdarzenia w innej grupie. Termin ten jest również używany w odniesieniu do szacunków tego wskaźnika na podstawie próby. Grupy te mogą być mężczyznami i kobietami, grupą eksperymentalną i grupą kontrolną lub inną dychotomiczną klasyfikacją.Jeżeli prawdopodobieństwa zdarzenia w każdej z grup wynoszą p1 (pierwsza grupa) i p2 (druga grupa), to iloraz szans wynosi:
p 1 / (1 – p 1) p 2 / (1 – p 2) = p 1 / q 1 p 2 / q 2 = p 1 q 2 p 2 q 1, {\ Displaystyle {p_ {1} / (1-p_ {1}) \ ponad p_ {2} / (1- p_ {2})} = {p_ {1} / q_ {1} \ ponad p_ {2} / q_ {2}} = {\ frac {\; p_ {1} q_ {2} \;} {\; p_ {2} q_ {1} \;}},}
gdzie qx = 1 – piksel. Iloraz szans równy 1 wskazuje, że badany stan lub zdarzenie ma takie samo prawdopodobieństwo wystąpienia w obu grupach. Iloraz szans większy niż 1 wskazuje, że stan lub zdarzenie jest bardziej prawdopodobne w pierwszej grupie. A iloraz szans mniejszy niż 1 wskazuje, że stan lub zdarzenie jest mniej prawdopodobne w pierwszej grupie. Iloraz szans musi być nieujemny, jeśli został zdefiniowany. Jest niezdefiniowane, jeśli p2q1 jest równe zero, tj. Jeśli p2 jest równe zero lub q1 jest równe zero.
Definicja w kategoriach prawdopodobieństw łącznych i warunkowychEdytuj
Iloraz szans można również zdefiniować w kategoriach wspólnego rozkładu prawdopodobieństwa dwóch binarnych zmiennych losowych. Wspólny rozkład binarnych zmiennych losowych X i Y można zapisać
Y = 1 Y = 0 X = 1 p 11 p 10 X = 0 p 01 p 00 {\ displaystyle {\ begin {tablica} {c | cc } & Y = 1 & Y = 0 \\\ hline X = 1 & p_ {11} & p_ {10} \\ X = 0 & p_ {01} & p_ {00} \ end {tablica}}}
gdzie p11, p10, p01 i p00 są nieujemnymi „prawdopodobieństwami komórki”, których suma wynosi jeden. Szanse na Y w dwóch subpopulacjach zdefiniowanych przez X = 1 i X = 0 są zdefiniowane w kategoriach prawdopodobieństw warunkowych podanych X, tj. P (Y | X):
Y = 1 Y = 0 X = 1 p 11 p 11 + p 10 p 10 p 11 + p 10 X = 0 p 01 p 01 + p 00 p 00 p 01 + p 00 {\ displaystyle {\ początek {tablica} {c | cc} & Y = 1 & Y = 0 \\\ hline X = 1 & {\ frac {p_ { 11}} {p_ {11} + p_ {10}}} & {\ frac {p_ {10}} {p_ {11} + p_ {10}}} \\ X = 0 & {\ frac {p_ {01}} {p_ {01} + p_ {00}}} & {\ frac {p_ {00}} {p_ {01} + p_ {00}}} \ end {array}}}
Zatem iloraz szans wynosi
p 11 / (p 11 + p 10) p 10 / (p 11 + p 10) / p 01 / (p 01 + p 00) p 00 / (p 01 + p 00) = p 11 p 00 p 10 p 01 {\ displaystyle {{\ dfrac {p_ {11} / (p_ {11} + p_ {10})} {p_ {10} / (p_ {11} + p_ {10})}} {\ bigg /} {\ dfrac {p_ {01} / (p_ {01 } + p_ {00})} {p_ {00} / (p_ {01} + p_ {00})}}} = {\ dfrac {p_ {11} p_ {00}} {p_ {10} p_ {01 }}}}
Proste wyrażenie po prawej stronie, powyżej, jest łatwe do zapamiętania jako th Iloczyn prawdopodobieństw „komórek niezgodnych” (X = Y) podzielony przez iloczyn prawdopodobieństw „komórek niezgodnych” (X ≠ Y). Należy jednak pamiętać, że w niektórych aplikacjach oznaczanie kategorii jako zero i jeden jest arbitralne, więc nie ma nic specjalnego w wartościach zgodnych i niezgodnych w tych aplikacjach.
SymmetryEdit
Gdybyśmy obliczyli iloraz szans oparty na podanych prawdopodobieństwach warunkowych Y,
Y = 1 Y = 0 X = 1 p 11 p 11 + p 01 p 10 p 10 + p 00 X = 0 p 01 p 11 + p 01 p 00 p 10 + p 00 {\ displaystyle {\ początek {tablica} {c | cc} & Y = 1 & Y = 0 \ \\ hline X = 1 & {\ frac {p_ {11}} {p_ {11} + p_ {01}}} & {\ frac {p_ {10}} {p_ {10} + p_ {00}}} \\ X = 0 & {\ frac {p_ {01}} {p_ {11} + p_ {01}}} & {\ frac {p_ {00}} {p_ {10} + p_ {00}}} \ end {array}}}
uzyskalibyśmy ten sam wynik
p 11 / (p 11 + p 01) p 01 / (p 11 + p 01) / p 10 / (p 10 + p 00) p 00 / (p 10 + p 00) = p 11 p 00 p 10 p 01. {\ Displaystyle {{\ dfrac {p_ {11} / (p_ {11} + p_ {01})} {p_ {01} / (p_ {11} + p_ {01})}} {\ bigg /} { \ dfrac {p_ {10} / (p_ {10} + p_ {00})} {p_ {00} / (p_ {10} + p_ {00})}}} = {\ dfrac {p_ {11} p_ {00}} {p_ {10} p_ {01}}}.}
Inne miary wielkości efektu dla danych binarnych, takie jak ryzyko względne, nie mają tej właściwości symetrii.
Relacja do statystyki niezależnośćEdytuj
Jeśli X i Y są niezależne, ich wspólne prawdopodobieństwa można wyrazić w kategoriach ich prawdopodobieństw krańcowych px = P (X = 1) i py = P (Y = 1) w następujący sposób
Y = 1 Y = 0 X = 1 pxpypx (1 – py) X = 0 (1 – px) py (1 – px) (1 – py) {\ Displaystyle {\ zaczynać {tablica} {c | cc} & Y = 1 & Y = 0 \\\ hline X = 1 & p_ { x} p_ {y} & p_ {x} (1-p_ {y}) \\ X = 0 & (1- p_ {x}) p_ {y} & (1-p_ {x}) (1-p_ {y}) \ end {array}}}
W tym przypadku , iloraz szans jest równy jeden i odwrotnie, iloraz szans może być równy tylko jeden, jeśli wspólna proba W ten sposób można uwzględnić zdolności. Zatem iloraz szans jest równy jeden wtedy i tylko wtedy, gdy X i Y są niezależne.
Odzyskiwanie prawdopodobieństw komórek z ilorazu szans i prawdopodobieństw krańcowychEdytuj
Iloraz szans jest funkcją komórki prawdopodobieństwa i odwrotnie, prawdopodobieństwa komórek można odzyskać, znając iloraz szans i prawdopodobieństwa krańcowe P (X = 1) = p11 + p10 i P (Y = 1) = p11 + p01.Jeśli iloraz szans R różni się od 1, to
p 11 = 1 + (p 1 ⋅ + p ⋅ 1) (R – 1) – S 2 (R – 1) {\ displaystyle p_ {11} = { \ frac {1+ (p_ {1 \ cdot} + p _ {\ cdot 1}) (R-1) -S} {2 (R-1)}}}
gdzie p1 • = p11 + p10, p • 1 = p11 + p01 i
S = (1 + (p 1 ⋅ + p ⋅ 1) (R – 1)) 2 + 4 R (1 – R) p 1 ⋅ p ⋅ 1. {\ Displaystyle S = {\ sqrt {(1+ (p_ {1 \ cdot} + p _ {\ cdot 1}) (R-1)) ^ {2} + 4R (1-R) p_ {1 \ cdot} p _ {\ cdot 1}}}.}
W przypadku, gdy R = 1, mamy niezależność, więc p11 = p1 • p • 1.
Gdy mamy p11, pozostałe trzy komórki prawdopodobieństwa można łatwo odzyskać z prawdopodobieństw krańcowych.