Et motiverende eksempel, i sammenheng med den sjeldne sykdomsforutsetningen Rediger
Tenk deg at det er en sjelden sykdom, som, for eksempel, bare rammer en av mange tusen voksne i et land. Tenk deg at vi mistenker at det å være utsatt for noe (si å ha hatt en bestemt type skade i barndommen) gjør det mer sannsynlig å utvikle sykdommen i voksen alder. Det mest informative å beregne ville være risikoforholdet, RR. For å gjøre dette i det ideelle tilfellet, for alle voksne i befolkningen, trenger vi å vite om de (a) hadde eksponering for skaden som barn og (b) om de utviklet sykdommen som voksne. Fra dette ville vi trekke ut følgende informasjon: det totale antallet personer utsatt for barndomsskaden, NE, {\ displaystyle N_ {E},} hvorav DE {\ displaystyle D_ {E}} utviklet sykdommen og HE {\ displaystyle H_ {E}} forble sunn; og det totale antallet personer som ikke ble eksponert, N N, {\ displaystyle N_ {N},} hvorav D N {\ displaystyle D_ {N}} utviklet sykdommen og H N {\ displaystyle H_ {N}} forble sunn. Siden NE = DE + HE {\ displaystyle N_ {E} = D_ {E} + H_ {E}} og tilsvarende for NN {\ displaystyle N_ {N}} -tallene, har vi bare fire uavhengige tall, som vi kan organisere i en tabell:
Diseased Healthy Exposed DEHE Ikke eksponert DNHN {\ displaystyle {\ begin {array} {| r | cc |} \ hline & {\ text {Diseased }} & {\ text {Healthy}} \\\ hline {\ text {Exposed}} & {D_ {E}} & {H_ {E}} \\ {\ text {Ikke eksponert}} & {D_ {N}} & {H_ {N}} \\\ hline \ end {array}}}
For å unngå mulig forvirring, understreker vi at alle disse tallene refererer til hele befolkningen, og ikke til noe utvalg av det.
RR = DE / NEDN / NN, {\ displaystyle RR = {\ frac {D_ {E} / N_ {E}} {D_ {N} / N_ {N}}} \ ,,}
som kan skrives om som RR = DENNDNNE = DE / DNNE / NN. {\ displaystyle RR = {\ frac {D_ {E} N_ {N}} {D_ {N} N_ {E}}} = {\ frac {D_ {E} / D_ {N}} {N_ {E} / N_ {N}}}.}
ELLER = DE / HEDN / HN, {\ displaystyle ELLER = {\ frac {D_ {E} / H_ {E}} {D_ {N} / H_ {N}} } \ ,,} som kan skrives om som ELLER = DEHNDNHE = DE / DNHE / HN. {\ displaystyle OR = {\ frac {D_ {E} H_ {N}} {D_ {N} H_ {E}}} = {\ frac {D_ {E} / D_ {N}} {H_ {E} / H_ {N}}}.}
Ofte kan vi løse dette problemet ved å benytte stikkprøver av befolkningen: nemlig hvis verken sykdommen eller eksponeringen for skaden er for sjeldne i vår befolkning, kan vi velge (si ) hundre mennesker tilfeldig, og finn ut disse fire tallene i prøven; antar at prøven er representativ nok for befolkningen, så vil RR beregnet for denne prøven være et godt estimat for RR for hele befolkningen.
Noen sykdommer kan imidlertid være så sjeldne at det etter all sannsynlighet , selv et stort tilfeldig utvalg inneholder kanskje ikke engang et enkelt sykt individ (eller det kan inneholde noen, men for få til å være statistisk signifikant). Dette ville gjøre det umulig å beregne RR. Men vi kan likevel være i stand til å estimere OR, forutsatt at eksponering for barneskaden i motsetning til sykdommen ikke er for sjelden. Fordi sykdommen er sjelden, er dette selvfølgelig også vårt estimat for RR.
Ser vi på det endelige uttrykket for OR: brøken i telleren, DE / DN, {\ displaystyle D_ { E} / D_ {N},} kan vi estimere ved å samle alle kjente tilfeller av sykdommen (antagelig må det være noen, ellers vil vi sannsynligvis ikke gjøre studien i utgangspunktet), og se hvor mange av de syke hadde eksponering, og hvor mange som ikke hadde det. Og brøkdelen i nevneren, HE / HN, {\ displaystyle H_ {E} / H_ {N},} er oddsen for at et sunt individ i befolkningen ble utsatt. Vær oppmerksom på at sistnevnte odds faktisk kan estimeres ved tilfeldig utvalg av befolkningen – forutsatt, som vi sa, at utbredelsen av eksponeringen for barndomsskaden ikke er for liten, slik at et tilfeldig utvalg av en håndterbar størrelse vil sannsynligvis inneholde et ganske stort antall individer som har hatt eksponering. Så her er sykdommen veldig sjelden, men faktoren tenkte å bidra til det er ikke så sjelden; slike situasjoner er ganske vanlige i praksis.
Dermed kan vi estimere OR, og deretter, ved å påkalle den sjeldne sykdomsforutsetningen igjen, sier vi at dette også er en god tilnærming av RR. For øvrig er scenariet beskrevet ovenfor et paradigmatisk eksempel på en case-control studie.
Definisjon i form av gruppemessige oddsRediger
Oddsforholdet er forholdet mellom oddsen til en hendelse som forekommer i en gruppe til oddsen for at den skal forekomme i en annen gruppe. Begrepet brukes også til å referere til prøvebaserte estimater av dette forholdet. Disse gruppene kan være menn og kvinner, en eksperimentell gruppe og en kontrollgruppe, eller en hvilken som helst annen dikotom klassifisering.Hvis sannsynlighetene for hendelsen i hver av gruppene er p1 (første gruppe) og p2 (andre gruppe), så er oddsforholdet:
p 1 / (1 – p 1) p 2 / (1 – p 2) = p 1 / q 1 p 2 / q 2 = p 1 q 2 p 2 q 1, {\ displaystyle {p_ {1} / (1-p_ {1}) \ over p_ {2} / (1- p_ {2})} = {p_ {1} / q_ {1} \ over p_ {2} / q_ {2}} = {\ frac {\; p_ {1} q_ {2} \;} {\; p_ {2} q_ {1} \;}},}
hvor qx = 1 – px. Et oddsforhold på 1 indikerer at tilstanden eller hendelsen som studeres like sannsynlig vil forekomme i begge gruppene. Et oddsforhold større enn 1 indikerer at tilstanden eller hendelsen er mer sannsynlig å forekomme i den første gruppen. Og et oddsforhold mindre enn 1 indikerer at tilstanden eller hendelsen er mindre sannsynlig å forekomme i den første gruppen. Oddsforholdet må være ikke-negativt hvis det er definert. Det er udefinert hvis p2q1 er lik null, dvs. hvis p2 er lik null eller q1 er lik null.
Definisjon i form av felles og betingede sannsynligheter Rediger
Oddsforholdet kan også defineres i termer av den felles sannsynlighetsfordelingen av to binære tilfeldige variabler. Fellesfordelingen av binære tilfeldige variabler X og Y kan skrives
Y = 1 Y = 0 X = 1 p 11 p 10 X = 0 p 01 p 00 {\ displaystyle {\ begin {array} {c | cc } & Y = 1 & Y = 0 \\\ hline X = 1 & p_ {11} & p_ {10} \\ X = 0 & p_ {01} & p_ {00} \ end {array}}}
der p11, p10, p01 og p00 er ikke-negative «cellesannsynligheter» som summerer til en. Oddsen for Y innenfor de to delpopulasjonene definert av X = 1 og X = 0 er definert i form av de betingede sannsynlighetene gitt X, dvs. P (Y | X):
Y = 1 Y = 0 X = 1 p 11 p 11 + p 10 p 10 p 11 + p 10 X = 0 p 01 p 01 + p 00 p 00 p 01 + p 00 {\ displaystyle {\ begin {array} {c | cc} & Y = 1 & Y = 0 \\\ hline X = 1 & {\ frac {p_ { 11}} {p_ {11} + p_ {10}}} & {\ frac {p_ {10}} {p_ {11} + p_ {10}}} \\ X = 0 & {\ frac {p_ {01}} {p_ {01} + p_ {00}}} & {\ frac {p_ {00}} {p_ {01} + p_ {00}}} \ end {array}}}
Dermed er oddsforholdet
p 11 / (p 11 + p 10) p 10 / (p 11 + p 10) / p 01 / (p 01 + p 00) p 00 / (p 01 + p 00) = p 11 p 00 p 10 p 01 {\ displaystyle {{\ dfrac {p_ {11} / (p_ {11} + p_ {10})} {p_ {10} / (p_ {11} + p_ {10})}} {\ bigg /} {\ dfrac {p_ {01} / (p_ {01) } + p_ {00})} {p_ {00} / (p_ {01} + p_ {00})}}} = {\ dfrac {p_ {11} p_ {00}} {p_ {10} p_ {01 }}}}
Det enkle uttrykket til høyre, over, er lett å huske som th produktet av sannsynlighetene for «konkordante celler» (X = Y) delt på produktet av sannsynlighetene for «uoverensstemmende celler» (X ≠ Y). Vær imidlertid oppmerksom på at i noen applikasjoner er merkingen av kategorier som null og en vilkårlig, så det er ikke noe spesielt med samsvarende mot uoverensstemmende verdier i disse applikasjonene.
SymmetryEdit
Hvis vi hadde beregnet oddsforholdet basert på de betingede sannsynlighetene gitt Y,
Y = 1 Y = 0 X = 1 p 11 p 11 + p 01 p 10 p 10 + p 00 X = 0 p 01 p 11 + p 01 p 00 p 10 + p 00 {\ displaystyle {\ begin {array} {c | cc} & Y = 1 & Y = 0 \ \\ hline X = 1 & {\ frac {p_ {11}} {p_ {11} + p_ {01}}} & {\ frac {p_ {10}} {p_ {10} + p_ {00}}} \\ X = 0 & {\ frac {p_ {01}} {p_ {11} + p_ {01}}} & {\ frac {p_ {00}} {p_ {10} + p_ {00}}} \ end {array}}}
vi ville ha oppnådd det samme resultatet
p 11 / (p 11 + p 01) p 01 / (p 11 + p 01) / p 10 / (p 10 + p 00) p 00 / (p 10 + p 00) = p 11 p 00 p 10 p 01. {\ displaystyle {{\ dfrac {p_ {11} / (p_ {11} + p_ {01})} {p_ {01} / (p_ {11} + p_ {01})}} {\ bigg /} { \ dfrac {p_ {10} / (p_ {10} + p_ {00})} {p_ {00} / (p_ {10} + p_ {00})}}} = {\ dfrac {p_ {11} p_ {00}} {p_ {10} p_ {01}}}.}
Andre mål på effektstørrelse for binære data, som den relative risikoen, har ikke denne symmetriegenskapen.
Forhold til statistisk uavhengighet Rediger
Hvis X og Y er uavhengige, kan deres felles sannsynlighet uttrykkes i form av marginalsannsynligheten px = P (X = 1) og py = P (Y = 1), som følger
Y = 1 Y = 0 X = 1 pxpypx (1 – py) X = 0 (1 – px) py (1 – px) (1 – py) {\ displaystyle {\ begin {array} {c | cc} & Y = 1 & Y = 0 \\\ hline X = 1 & p_ { x} p_ {y} & p_ {x} (1-p_ {y}) \\ X = 0 & (1- p_ {x}) p_ {y} & (1-p_ {x}) (1-p_ {y}) \ end {array}}}
I dette tilfellet , er oddsforholdet lik en, og omvendt kan oddsforholdet bare være lik ett hvis fellesproben bilities kan faktureres på denne måten. Dermed er oddsforholdet lik en hvis og bare hvis X og Y er uavhengige.
Gjenopprette cellesannsynlighetene fra oddsforholdet og marginalsannsynlighetene Rediger
Oddsforholdet er en funksjon av cellen sannsynligheter, og omvendt kan cellesannsynlighetene gjenopprettes gitt kunnskap om oddsforholdet og marginalsannsynlighetene P (X = 1) = p11 + p10 og P (Y = 1) = p11 + p01.Hvis oddsforholdet R er forskjellig fra 1, er
p 11 = 1 + (p 1 ⋅ + p ⋅ 1) (R – 1) – S 2 (R – 1) {\ displaystyle p_ {11} = { \ frac {1+ (p_ {1 \ cdot} + p _ {\ cdot 1}) (R-1) -S} {2 (R-1)}}}
hvor p1 • = p11 + p10, p • 1 = p11 + p01, og
S = (1 + (p 1 ⋅ + p ⋅ 1) (R – 1)) 2 + 4 R (1 – R) p 1 ⋅ p ⋅ 1. {\ displaystyle S = {\ sqrt {(1+ (p_ {1 \ cdot} + p _ {\ cdot 1}) (R-1)) ^ {2} + 4R (1-R) p_ {1 \ cdot} p _ {\ cdot 1}}}.}
I tilfelle R = 1 har vi uavhengighet, så p11 = p1 • p • 1.
Når vi har p11, kommer de andre tre cellene sannsynligheter kan lett gjenopprettes fra marginale sannsynligheter.