Un esempio motivante, nel contesto del presupposto della malattia rara Modifica
Immagina che ci sia una malattia rara, che affligge, diciamo, solo uno su molte migliaia di adulti un paese. Immagina di sospettare che essere esposti a qualcosa (ad esempio, aver avuto un particolare tipo di lesione durante l’infanzia) aumenti le probabilità di sviluppare quella malattia in età adulta. La cosa più informativa da calcolare sarebbe il rapporto di rischio, RR. Per fare ciò nel caso ideale, per tutti gli adulti della popolazione avremmo bisogno di sapere se (a) hanno avuto l’esposizione alla lesione da bambini e (b) se hanno sviluppato la malattia da adulti. Da questo si estraggono le seguenti informazioni: il numero totale di persone esposte al trauma infantile, NE, {\ displaystyle N_ {E},} da cui DE {\ displaystyle D_ {E}} ha sviluppato la malattia e HE {\ displaystyle H_ {E}} è rimasto in salute; e il numero totale di persone non esposte, N N, {\ displaystyle N_ {N},} di cui D N {\ displaystyle D_ {N}} ha sviluppato la malattia e H N {\ displaystyle H_ {N}} è rimasto in buona salute. Poiché NE = DE + HE {\ displaystyle N_ {E} = D_ {E} + H_ {E}} e similmente per i numeri NN {\ displaystyle N_ {N}}, abbiamo solo quattro numeri indipendenti, che possiamo organizzare in una tabella:
Malato Sano Esposto DEHE Non esposto DNHN {\ displaystyle {\ begin {array} {| r | cc |} \ hline & {\ text {Malato }} & {\ text {Healthy}} \\\ hline {\ text {Exposed}} & {D_ {E}} & {H_ {E}} \\ {\ text {Non esposto}} & {D_ {N}} & {H_ {N}} \\\ hline \ end {array}}}
Per evitare possibili confusioni, sottolineiamo che tutti questi numeri si riferiscono all’intera popolazione, e non a qualche campione di esso.
RR = DE / NEDN / NN, {\ displaystyle RR = {\ frac {D_ {E} / N_ {E}} {D_ {N} / N_ {N}}} \ ,,}
che può essere riscritto come RR = DENNDNNE = DE / DNNE / NN. {\ displaystyle RR = {\ frac {D_ {E} N_ {N}} {D_ {N} N_ {E}}} = {\ frac {D_ {E} / D_ {N}} {N_ {E} / N_ {N}}}.}
OR = DE / HEDN / HN, {\ displaystyle OR = {\ frac {D_ {E} / H_ {E}} {D_ {N} / H_ {N}} } \ ,,} che può essere riscritto come OR = DEHNDNHE = DE / DNHE / HN. {\ displaystyle OR = {\ frac {D_ {E} H_ {N}} {D_ {N} H_ {E}}} = {\ frac {D_ {E} / D_ {N}} {H_ {E} / H_ {N}}}.}
Spesso possiamo superare questo problema impiegando un campionamento casuale della popolazione: vale a dire, se né la malattia né l’esposizione alla lesione sono troppo rare nella nostra popolazione, allora possiamo scegliere (diciamo ) un centinaio di persone a caso e scoprire questi quattro numeri in quel campione; supponendo che il campione sia sufficientemente rappresentativo della popolazione, allora il RR calcolato per questo campione sarà una buona stima per il RR per l’intera popolazione.
Tuttavia, alcune malattie possono essere così rare che, con ogni probabilità , anche un ampio campione casuale potrebbe non contenere nemmeno un singolo individuo malato (o potrebbe contenerne alcuni, ma troppo pochi per essere statisticamente significativi). Ciò renderebbe impossibile calcolare l’RR. Tuttavia, potremmo comunque essere in grado di stimare l’OR, a condizione che, a differenza della malattia, l’esposizione alla lesione infantile non sia troppo rara. Ovviamente, poiché la malattia è rara, questa è anche la nostra stima per il RR.
Guardando l’espressione finale per l’OR: la frazione al numeratore, DE / DN, {\ displaystyle D_ { E} / D_ {N},} possiamo stimare raccogliendo tutti i casi noti della malattia (presumibilmente ce ne devono essere alcuni, altrimenti probabilmente non faremmo lo studio in primo luogo) e vedendo quanti di le persone malate hanno avuto l’esposizione, e quante no. E la frazione nel denominatore, HE / HN, {\ displaystyle H_ {E} / H_ {N},} è la probabilità che un individuo sano nella popolazione sia stato esposto si noti ora che quest’ultima probabilità può essere effettivamente stimata mediante campionamento casuale della popolazione, a condizione, come abbiamo detto, che la prevalenza dell’esposizione alla lesione infantile non sia troppo piccola, in modo che un campione casuale di un una dimensione gestibile potrebbe contenere un discreto numero di individui che hanno avuto l’esposizione. Quindi qui la malattia è molto rara, ma il fattore contribuire ad esso non è così raro; tali situazioni sono abbastanza comuni nella pratica.
Quindi possiamo stimare l’OR, e quindi, invocando di nuovo l’ipotesi della malattia rara, diciamo che anche questa è una buona approssimazione del RR. Per inciso, lo scenario descritto sopra è un esempio paradigmatico di uno studio caso-controllo.
Definizione in termini di odds a livello di gruppo Modifica
L’odds ratio è il rapporto tra gli odds di un evento che si verifica in un gruppo con le probabilità che si verifichi in un altro gruppo. Il termine è utilizzato anche per riferirsi a stime basate su campioni di questo rapporto. Questi gruppi potrebbero essere uomini e donne, un gruppo sperimentale e un gruppo di controllo o qualsiasi altra classificazione dicotomica.Se le probabilità dell’evento in ciascuno dei gruppi sono p1 (primo gruppo) e p2 (secondo gruppo), l’odds ratio è:
p 1 / (1 – p 1) p 2 / (1 – p 2) = p 1 / q 1 p 2 / q 2 = p 1 q 2 p 2 q 1, {\ displaystyle {p_ {1} / (1-p_ {1}) \ over p_ {2} / (1- p_ {2})} = {p_ {1} / q_ {1} \ over p_ {2} / q_ {2}} = {\ frac {\; p_ {1} q_ {2} \;} {\; p_ {2} q_ {1} \;}},}
dove qx = 1 – px. Un odds ratio di 1 indica che la condizione o l’evento in studio ha la stessa probabilità di verificarsi in entrambi i gruppi. Un odds ratio maggiore di 1 indica che la condizione o l’evento è più probabile che si verifichi nel primo gruppo. E un odds ratio inferiore a 1 indica che la condizione o l’evento è meno probabile che si verifichi nel primo gruppo. L’odds ratio deve essere non negativo se definito. Non è definito se p2q1 è uguale a zero, cioè se p2 è uguale a zero o q1 è uguale a zero.
Definizione in termini di probabilità congiunte e condizionate Modifica
L’odds ratio può anche essere definito in termini della distribuzione di probabilità congiunta di due variabili casuali binarie. La distribuzione congiunta delle variabili casuali binarie X e Y può essere scritta
Y = 1 Y = 0 X = 1 p 11 p 10 X = 0 p 01 p 00 {\ displaystyle {\ begin {array} {c | cc } & Y = 1 & Y = 0 \\\ hline X = 1 & p_ {11} & p_ {10} \\ X = 0 & p_ {01} & p_ {00} \ end {array}}}
dove p11, p10, p01 e p00 sono “probabilità di cella” non negative che sommano a uno. Le quote per Y all’interno delle due sottopopolazioni definite da X = 1 e X = 0 sono definite in termini di probabilità condizionate date X, cioè P (Y | X):
Y = 1 Y = 0 X = 1 p 11 p 11 + p 10 p 10 p 11 + p 10 X = 0 p 01 p 01 + p 00 p 00 p 01 + p 00 {\ displaystyle {\ begin {array} {c | cc} & Y = 1 & Y = 0 \\\ hline X = 1 & {\ frac {p_ { 11}} {p_ {11} + p_ {10}}} & {\ frac {p_ {10}} {p_ {11} + p_ {10}}} \\ X = 0 & {\ frac {p_ {01}} {p_ {01} + p_ {00}}} & {\ frac {p_ {00}} {p_ {01} + p_ {00}}} \ end {array}}}
Quindi l’odds ratio è
p 11 / (p 11 + p 10) p 10 / (p 11 + p 10) / p 01 / (p 01 + p 00) p 00 / (p 01 + p 00) = p 11 p 00 p 10 p 01 {\ displaystyle {{\ dfrac {p_ {11} / (p_ {11} + p_ {10})} {p_ {10} / (p_ {11} + p_ {10})}} {\ bigg /} {\ dfrac {p_ {01} / (p_ {01 } + p_ {00})} {p_ {00} / (p_ {01} + p_ {00})}}} = {\ dfrac {p_ {11} p_ {00}} {p_ {10} p_ {01 }}}}
La semplice espressione a destra, sopra, è facile da ricordare come th Il prodotto delle probabilità delle “cellule concordanti” (X = Y) diviso per il prodotto delle probabilità delle “cellule discordanti” (X ≠ Y). Tuttavia si noti che in alcune applicazioni l’etichettatura delle categorie come zero e uno è arbitraria, quindi non c’è niente di speciale sui valori concordanti rispetto a quelli discordanti in queste applicazioni.
Simmetria Modifica
Se avessimo calcolato l’odds ratio basato sulle probabilità condizionate date Y,
Y = 1 Y = 0 X = 1 p 11 p 11 + p 01 p 10 p 10 + p 00 X = 0 p 01 p 11 + p 01 p 00 p 10 + p 00 {\ displaystyle {\ begin {array} {c | cc} & Y = 1 & Y = 0 \ \\ hline X = 1 & {\ frac {p_ {11}} {p_ {11} + p_ {01}}} & {\ frac {p_ {10}} {p_ {10} + p_ {00}}} \\ X = 0 & {\ frac {p_ {01}} {p_ {11} + p_ {01}}} & {\ frac {p_ {00}} {p_ {10} + p_ {00}}} \ end {array}}}
avremmo ottenuto lo stesso risultato
p 11 / (p 11 + p 01) p 01 / (p 11 + p 01) / p 10 / (p 10 + p 00) p 00 / (p 10 + p 00) = p 11 p 00 p 10 p 01. {\ displaystyle {{\ dfrac {p_ {11} / (p_ {11} + p_ {01})} {p_ {01} / (p_ {11} + p_ {01})}} {\ bigg /} { \ dfrac {p_ {10} / (p_ {10} + p_ {00})} {p_ {00} / (p_ {10} + p_ {00})}}} = {\ dfrac {p_ {11} p_ {00}} {p_ {10} p_ {01}}}.}
Altre misure della dimensione dell’effetto per i dati binari come il rischio relativo non hanno questa proprietà di simmetria.
Relazione con la statistica indipendenzaEdit
Se X e Y sono indipendenti, le loro probabilità congiunte possono essere espresse in termini di probabilità marginali px = P (X = 1) e py = P (Y = 1), come segue
Y = 1 Y = 0 X = 1 pxpypx (1 – py) X = 0 (1 – px) py (1 – px) (1 – py) {\ displaystyle {\ begin {array} {c | cc} & Y = 1 & Y = 0 \\\ hline X = 1 & p_ { x} p_ {y} & p_ {x} (1-p_ {y}) \\ X = 0 & (1- p_ {x}) p_ {y} & (1-p_ {x}) (1-p_ {y}) \ end {array}}}
In questo caso , l’odds ratio è uguale a uno, e viceversa l’odds ratio può essere uguale solo a uno se la proba congiunta bilities possono essere presi in considerazione in questo modo. Quindi l’odds ratio è uguale a uno se e solo se X e Y sono indipendenti.
Recupero delle probabilità di cella dall’odds ratio e dalle probabilità marginali Modifica
L’odds ratio è una funzione della cella probabilità, e viceversa, le probabilità delle celle possono essere recuperate data la conoscenza dell’odds ratio e delle probabilità marginali P (X = 1) = p11 + p10 e P (Y = 1) = p11 + p01.Se l’odds ratio R è diverso da 1,
p 11 = 1 + (p 1 ⋅ + p ⋅ 1) (R – 1) – S 2 (R – 1) {\ displaystyle p_ {11} = { \ frac {1+ (p_ {1 \ cdot} + p _ {\ cdot 1}) (R-1) -S} {2 (R-1)}}}
dove p1 • = p11 + p10, p • 1 = p11 + p01, e
S = (1 + (p 1 ⋅ + p ⋅ 1) (R – 1)) 2 + 4 R (1 – R) p 1 ⋅ p ⋅ 1. {\ displaystyle S = {\ sqrt {(1+ (p_ {1 \ cdot} + p _ {\ cdot 1}) (R-1)) ^ {2} + 4R (1-R) p_ {1 \ cdot} p _ {\ cdot 1}}}.}
Nel caso in cui R = 1, abbiamo indipendenza, quindi p11 = p1 • p • 1.
Una volta che abbiamo p11, le altre tre celle le probabilità possono essere facilmente recuperate dalle probabilità marginali.