Ecco un approccio generale alla comprensione algebrica del Paradox di Simpson per i dati di conteggio.
Supponiamo di disporre di dati di sopravvivenza per un'esposizione e di creare una tabella di contingenza 2x2. Per mantenere le cose semplici avremo gli stessi conteggi in ogni cella. Potremmo rilassarlo, ma renderebbe l'algebra piuttosto confusa.
Exposednon impressionateMortoXXSopravvissutoXXTasso di mortalità0.50.5
In questo caso, il tasso di mortalità è lo stesso sia nei gruppi esposti che in quelli non esposti.
Ora, se dividiamo i dati, diciamo in un gruppo per le femmine e un altro gruppo per i maschi, otteniamo 2 tabelle, con i seguenti conteggi:
Maschi:
Exposednon impressionateMortoXun'XcSopravvissutoXBXdTasso di mortalitàun'a + bcc + d
e per le femmine:
ExposedUnexposedDiedX(a−1)X(c−1)SurvivedX(b−1)X(d−1)Death Ratea−1a+b−2c−1c+d−2
dove a,b,c,d∈[0,1] sono le proporzioni di ciascuna cella nella tabella di dati aggregati che sono maschi.
Il paradosso di Simpson si verificherà quando il tasso di mortalità per i maschi esposti è maggiore del tasso di mortalità per i maschi non esposti E il tasso di mortalità per le femmine esposte è maggiore del tasso di mortalità per le femmine non esposte. In alternativa, si verificherà anche quando il tasso di mortalità per i maschi esposti è inferiore al tasso di mortalità per i maschi non esposti E il tasso di mortalità per le femmine esposte è inferiore al tasso di mortalità per le femmine non esposte. Cioè quando
(aa+b<cc+d) and (a−1a+b−2<c−1c+d−2)
Or
(aa+b>cc+d) and (a−1a+b−2>c−1c+d−2)
Come esempio concreto, lascia X=100 e a = 0,5 , b = 0,8 , c = 0,9 . Quindi avremo il paradosso di Simpson quando:
( 0,50,8 + 0,9< 0.90.9 + d) e ( 0,5 - 10.5+0.8−2<0.9−10.9+d−2)
(−9<d<1.44) and (0.96<d<1.1)
Da cui concludiamo che d deve trovarsi in (0.96,1]
La seconda serie di disuguaglianze fornisce:
(0.50.8+0.9>0.90.9+d) and (0.5−10.5+0.8−2>0.9−10.9+d−2)
(d<−0.9 or d>1.44) and (0.96<d or d>1.44)
which has no solution for d∈[0,1]
So for the three values that we chose for a,b, and c, to invoke Simpson's paradox, d must be greater than 0.96. In the case where the value was 0.99 then we would obtain a Death Rate for Males of
0.5/(0.5+0.8)=38% in the exposed group
0.9/(0.9+0.99)=48% in the unexposed group
and for Females:
(0.5−1)/(0.5+0.8−2)=71% in the exposed group
(0.9−1)/(0.9+0.99−2)=91% in the unexposed group
So, males have a higher death rate in the unexposed group than in the exposed group, and females also have a higher death rate in the unexposed group than the exposed group, yet the death rates in the aggregated data are the same for exposed and unexposed.