Un exemplu motivant, în contextul presupunerii bolii rareEdit
Imaginați-vă că există o boală rară, afectând, să zicem, doar una din multe mii de adulți din o tara. Imaginați-vă că bănuiți că expunerea la ceva (să zicem, că ați avut un anumit tip de leziune în copilărie) face ca cineva să dezvolte acea boală la maturitate. Cel mai informativ lucru de calculat ar fi raportul de risc, RR. Pentru a face acest lucru, în cazul ideal, pentru toți adulții din populație ar trebui să știm dacă (a) au avut expunerea la rănire ca și copii și (b) dacă au dezvoltat boala ca adulți. Din aceasta am extrage următoarele informații: numărul total de persoane expuse rănirii din copilărie, NE, {\ displaystyle N_ {E},} din care DE {\ displaystyle D_ {E}} a dezvoltat boala și HE {\ displaystyle H_ {E}} a rămas sănătos; și numărul total de persoane neexpuse, N N, {\ displaystyle N_ {N},} din care D N {\ displaystyle D_ {N}} a dezvoltat boala și H N {\ displaystyle H_ {N}} a rămas sănătos. Deoarece NE = DE + HE {\ displaystyle N_ {E} = D_ {E} + H_ {E}} și în mod similar pentru numerele NN {\ displaystyle N_ {N}}, avem doar patru numere independente, pe care le putem organiza într-un tabel:
Bolnav Sănătos Expus DEHE Nu expus DNHN {\ displaystyle {\ begin {array} {| r | cc |} \ hline & {\ text {Bolnav }} & {\ text {Healthy}} \\\ hline {\ text {Exposed}} & {D_ {E}} & {H_ {E}} \\ {\ text {Nu expus}} & {D_ {N}} & {H_ {N}} \\\ hline \ end {array}}}
Pentru a evita o posibilă confuzie, subliniem că toate aceste numere se referă la întreaga populație și nu la un eșantion din acesta.
RR = DE / NEDN / NN, {\ displaystyle RR = {\ frac {D_ {E} / N_ {E}} {D_ {N} / N_ {N}}} \ ,,}
care poate fi rescris ca RR = DENNDNNE = DE / DNNE / NN. {\ displaystyle RR = {\ frac {D_ {E} N_ {N}} {D_ {N} N_ {E}}} = {\ frac {D_ {E} / D_ {N}} {N_ {E} / N_ {N}}}.}
OR = DE / HEDN / HN, {\ displaystyle OR = {\ frac {D_ {E} / H_ {E}} {D_ {N} / H_ {N}} } \ ,,} care poate fi rescris ca OR = DEHNDNHE = DE / DNHE / HN. {\ displaystyle OR = {\ frac {D_ {E} H_ {N}} {D_ {N} H_ {E}}} = {\ frac {D_ {E} / D_ {N}} {H_ {E} / H_ {N}}}.}
Adesea putem depăși această problemă folosind eșantionarea aleatorie a populației: și anume, dacă nici boala și nici expunerea la leziuni nu sunt prea rare în populația noastră, atunci putem alege (să spunem ) o sută de oameni la întâmplare și aflați aceste patru numere din eșantionul respectiv; presupunând că eșantionul este suficient de reprezentativ pentru populație, atunci RR calculat pentru acest eșantion va fi o estimare bună pentru RR pentru întreaga populație.
Cu toate acestea, unele boli pot fi atât de rare încât, după toate probabilitățile , chiar și un eșantion mare aleator nu poate conține nici măcar un singur individ bolnav (sau poate conține unele, dar prea puține pentru a fi semnificative statistic). Acest lucru ar face imposibilă calcularea RR. Dar, totuși, putem fi în măsură să estimăm RUP, cu condiția ca, spre deosebire de boală, expunerea la leziunea copilului să nu fie prea rară. Desigur, deoarece boala este rară, aceasta este apoi și estimarea noastră pentru RR.
Privind expresia finală pentru OR: fracția din numărător, DE / DN, {\ displaystyle D_ { E} / D_ {N},} putem estima colectând toate cazurile cunoscute ale bolii (probabil că trebuie să existe unele, altfel probabil că nu vom face studiul în primul rând) și văzând câte dintre persoanele bolnave au avut expunerea și câți nu. Și fracția din numitor, HE / HN, {\ displaystyle H_ {E} / H_ {N},} este șansa că un individ sănătos din populație a fost expus Acum, rețineți că această ultimă șansă poate fi într-adevăr estimată prin eșantionarea aleatorie a populației – cu condiția, așa cum am spus, că prevalența expunerii la leziunea copilului nu este prea mică, astfel încât un eșantion aleatoriu al unui dimensiunea gestionabilă ar conține probabil un număr destul de mare de indivizi care au avut expunerea. Deci, aici boala este foarte rară, dar factorul considerat a contribui la aceasta nu este chiar atât de rar; astfel de situații sunt destul de frecvente în practică.
Astfel putem estima OR și apoi, invocând din nou ipoteza bolii rare, spunem că aceasta este, de asemenea, o bună aproximare a RR. De altfel, scenariul descris mai sus este un exemplu paradigmatic al unui studiu de caz-control.
Definiție în termeni de probabilitate de grup Editați
Raportul de probabilități este raportul probabilităților unui eveniment care apare într-un grup până la șansele ca acesta să se întâmple într-un alt grup. Termenul este, de asemenea, utilizat pentru a se referi la estimările bazate pe eșantion ale acestui raport. Aceste grupuri pot fi bărbați și femei, un grup experimental și un grup de control sau orice altă clasificare dihotomică.Dacă probabilitățile evenimentului din fiecare grup sunt p1 (primul grup) și p2 (al doilea grup), atunci raportul cote este:
p 1 / (1 – p 1) p 2 / (1 – p 2) = p 1 / q 1 p 2 / q 2 = p 1 q 2 p 2 q 1, {\ displaystyle {p_ {1} / (1-p_ {1}) \ over p_ {2} / (1- p_ {2})} = {p_ {1} / q_ {1} \ over p_ {2} / q_ {2}} = {\ frac {\; p_ {1} q_ {2} \;} {\; p_ {2} q_ {1} \;}},}
unde qx = 1 – px. Un raport de probabilități de 1 indică faptul că starea sau evenimentul studiat este la fel de probabil să apară în ambele grupuri. Un raport de cote mai mare de 1 indică faptul că starea sau evenimentul este mai probabil să apară în primul grup. Și un raport de cote mai mic de 1 indică faptul că starea sau evenimentul este mai puțin probabil să apară în primul grup. Raportul de cote trebuie să fie negativ dacă este definit. Este nedefinit dacă p2q1 este egal cu zero, adică dacă p2 este egal cu zero sau q1 este egal cu zero.
Definiție în termeni de probabilități comune și condiționale a distribuției comune a probabilității a două variabile aleatoare binare. Distribuția comună a variabilelor aleatoare binare X și Y poate fi scrisă Y = 1 Y = 0 X = 1 p 11 p 10 X = 0 p 01 p 00 {\ displaystyle {\ begin {array} {c | cc } & Y = 1 & Y = 0 \\\ hline X = 1 & p_ {11} & p_ {10} \\ X = 0 & p_ {01} & p_ {00} \ end {array}}}
unde p11, p10, p01 și p00 sunt „probabilități de celule” non-negative care însumează una. Cotele pentru Y în cadrul celor două subpopulații definite de X = 1 și X = 0 sunt definite în termeni de probabilități condiționale date X, adică P (Y | X):
Y = 1 Y = 0 X = 1 p 11 p 11 + p 10 p 10 p 11 + p 10 X = 0 p 01 p 01 + p 00 p 00 p 01 + p 00 {\ displaystyle {\ begin {array} {c | cc} & Y = 1 & Y = 0 \\\ hline X = 1 & {\ frac {p_ { 11}} {p_ {11} + p_ {10}}} & {\ frac {p_ {10}} {p_ {11} + p_ {10}}} \\ X = 0 & {\ frac {p_ {01}} {p_ {01} + p_ {00}}} & {\ frac {p_ {00}} {p_ {01} + p_ {00}}} \ end {array}}}
Astfel raportul de probabilități este
p 11 / (p 11 + p 10) p 10 / (p 11 + p 10) / p 01 / (p 01 + p 00) p 00 / (p 01 + p 00) = p 11 p 00 p 10 p 01 {\ displaystyle {{\ dfrac {p_ {11} / (p_ {11} + p_ {10})} {p_ {10} / (p_ {11} + p_ {10})}} {\ bigg /} {\ dfrac {p_ {01} / (p_ {01} } + p_ {00})} {p_ {00} / (p_ {01} + p_ {00})}}} = {\ dfrac {p_ {11} p_ {00}} {p_ {10} p_ {01 }}}}
Expresia simplă din dreapta, deasupra, este ușor de reținut ca th Produsul probabilităților „celulelor concordante” (X = Y) împărțit la produsul probabilităților „celulelor discordante” (X ≠ Y). Cu toate acestea, rețineți că în unele aplicații etichetarea categoriilor ca zero și una este arbitrară, deci nu există nimic special în ceea ce privește valorile concordante față de discordante în aceste aplicații. raportul de probabilități bazat pe probabilitățile condiționale date Y,
Y = 1 Y = 0 X = 1 p 11 p 11 + p 01 p 10 p 10 + p 00 X = 0 p 01 p 11 + p 01 p 00 p 10 + p 00 {\ displaystyle {\ begin {array} {c | cc} & Y = 1 & Y = 0 \ \\ hline X = 1 & {\ frac {p_ {11}} {p_ {11} + p_ {01}}} & {\ frac {p_ {10}} {p_ {10} + p_ {00}}} \\ X = 0 & {\ frac {p_ {01}} {p_ {11} + p_ {01}}} & {\ frac {p_ {00}} {p_ {10} + p_ {00}}} \ end {array}}}
am fi obținut același rezultat
p 11 / (p 11 + p 01) p 01 / (p 11 + p 01) / p 10 / (p 10 + p 00) p 00 / (p 10 + p 00) = p 11 p 00 p 10 p 01. {\ displaystyle {{\ dfrac {p_ {11} / (p_ {11} + p_ {01})} {p_ {01} / (p_ {11} + p_ {01})}} {\ bigg /} { \ dfrac {p_ {10} / (p_ {10} + p_ {00})} {p_ {00} / (p_ {10} + p_ {00})}}} = {\ dfrac {p_ {11} p_ {00}} {p_ {10} p_ {01}}}.}
Alte măsuri ale dimensiunii efectului pentru datele binare, cum ar fi riscul relativ, nu au această proprietate de simetrie.
Relația cu statisticile independentEdit
Dacă X și Y sunt independenți, probabilitățile lor comune pot fi exprimate în termeni de probabilități marginale px = P (X = 1) și py = P (Y = 1), după cum urmează
Y = 1 Y = 0 X = 1 pxpypx (1 – py) X = 0 (1 – px) py (1 – px) (1 – py) {\ displaystyle {\ begin {array} {c | cc} & Y = 1 & Y = 0 \\\ hline X = 1 & p_ { x} p_ {y} & p_ {x} (1-p_ {y}) \\ X = 0 & (1- p_ {x}) p_ {y} & (1-p_ {x}) (1-p_ {y}) \ end {array}}}
În acest caz , raportul de cote este egal cu unul și, invers, raportul de cote poate fi egal cu unul numai dacă proba comună bilitățile pot fi luate în considerare în acest fel. Astfel, raportul probabilității este egal cu unul dacă și numai dacă X și Y sunt independenți.
Recuperarea probabilităților celulei din probabilitatea marginală și probabilitățile marginale probabilitățile și, invers, probabilitățile celulei pot fi recuperate, având în vedere cunoștințele despre raportul de probabilități și probabilitățile marginale P (X = 1) = p11 + p10 și P (Y = 1) = p11 + p01.Dacă raportul de cote R diferă de 1, atunci p 11 = 1 + (p 1 ⋅ + p ⋅ 1) (R – 1) – S 2 (R – 1) {\ displaystyle p_ {11} = { \ frac {1+ (p_ {1 \ cdot} + p _ {\ cdot 1}) (R-1) -S} {2 (R-1)}}}
unde p1 • = p11 + p10, p • 1 = p11 + p01 și
S = (1 + (p 1 ⋅ + p ⋅ 1) (R – 1)) 2 + 4 R (1 – R) p 1 ⋅ p ⋅ 1. {\ displaystyle S = {\ sqrt {(1+ (p_ {1 \ cdot} + p _ {\ cdot 1}) (R-1)) ^ {2} + 4R (1-R) p_ {1 \ cdot} p _ {\ cdot 1}}}.}
În cazul în care R = 1, avem independență, deci p11 = p1 • p • 1.
Odată ce avem p11, celelalte trei celule probabilitățile pot fi ușor recuperate din probabilitățile marginale.