Come risolvere il paradosso di Simpson?


35

Il paradosso di Simpson è un classico rompicapo discusso in corsi introduttivi di statistica in tutto il mondo. Tuttavia, il mio corso era contento di notare semplicemente che esisteva un problema e non forniva una soluzione. Vorrei sapere come risolvere il paradosso. Cioè, di fronte al paradosso di un Simpson, in cui due diverse scelte sembrano competere per essere la scelta migliore a seconda di come sono partizionati i dati, quale scelta si dovrebbe scegliere?

Per rendere concreto il problema, consideriamo il primo esempio fornito nel pertinente articolo di Wikipedia . Si basa su un vero studio su un trattamento per i calcoli renali.

inserisci qui la descrizione dell'immagine

Supponiamo che io sia un medico e un test rivela che un paziente ha calcoli renali. Utilizzando solo le informazioni fornite nella tabella, vorrei determinare se dovrei adottare il trattamento A o il trattamento B. Sembra che se conosco la dimensione della pietra, dovremmo preferire il trattamento A. Ma se non lo facciamo, allora dovremmo preferire il trattamento B.

Ma considera un altro modo plausibile per arrivare a una risposta. Se la pietra è grande, dovremmo scegliere A, e se è piccola, dovremmo scegliere di nuovo A. Quindi anche se non conosciamo la dimensione della pietra, con il metodo dei casi, vediamo che dovremmo preferire A. Ciò contraddice il nostro ragionamento precedente.

Quindi: un paziente entra nel mio ufficio. Un test rivela che hanno calcoli renali ma non mi dà informazioni sulla loro dimensione. Quale trattamento mi consiglia? Esiste una risoluzione accettata per questo problema?

Wikipedia suggerisce una risoluzione usando "reti bayesiane causali" e un test "back-door", ma non ho idea di cosa siano.


2
Il link Paradox di Basic Simpson sopra menzionato è un esempio di dati osservativi. Non possiamo decidere in modo inequivocabile tra gli ospedali perché i pazienti probabilmente non sono stati assegnati in modo casuale agli ospedali e la domanda posta non ci fornisce un modo per sapere se, ad esempio, un ospedale tendesse ad avere pazienti a rischio più elevato. Scomporre i risultati in operazioni AE non affronta questo problema.
Emil Friedman,

@EmilFriedman Sono d'accordo che è vero che possiamo decidere senza ambiguità tra ospedali. Ma certamente i dati supportano l'uno sull'altro. (Non è vero che i dati non ci hanno insegnato nulla sulla qualità degli ospedali.)
Patata

Risposte:


14

Nella tua domanda, affermi di non sapere quali siano le "reti bayesiane causali" e i "test backdoor".

Supponiamo di avere una rete bayesiana causale. Cioè, un grafico aciclico diretto i cui nodi rappresentano proposizioni e i cui bordi diretti rappresentano potenziali relazioni causali. Potresti avere molte di queste reti per ciascuna delle tue ipotesi. Ci sono tre modi per rendere un argomento convincente circa la forza o l'esistenza di un vantaggio .A?B

Il modo più semplice è un intervento. Questo è ciò che le altre risposte suggeriscono quando affermano che la "randomizzazione corretta" risolverà il problema. È casuale forzare di avere valori diversi e si misura . Se riesci a farlo, hai finito, ma non puoi sempre farlo. Nel tuo esempio, potrebbe non essere etico offrire alle persone trattamenti inefficaci per malattie mortali, oppure possono avere qualche voce in capitolo nel loro trattamento, ad esempio, possono scegliere il meno duro (trattamento B) quando i loro calcoli renali sono piccoli e meno dolorosi.BAB

Il secondo modo è il metodo della porta d'ingresso. Si vuole dimostrare che agisce su via , vale a dire, . Se si assume che è potenzialmente causato da ma non ha altre cause, e si può misurare che è correlato con e è correlato con , allora si può concludere prova deve fluire via . L'esempio originale: sta fumando, è il cancro,B C A C B C A C A B C C A B CABCACBCACABCCABCè l'accumulo di catrame. Il catrame può provenire solo dal fumo e si correla con il fumo e il cancro. Pertanto, il fumo provoca il cancro attraverso il catrame (anche se potrebbero esserci altri percorsi causali che mitigano questo effetto).

Il terzo modo è il metodo backdoor. Si vuole dimostrare che e non sono correlati a causa di una "back door", ad esempio, causa comune, vale a dire, . Dal momento che avete assunto un modello causale, si deve semplicemente bisogno di bloccare l'tutti i percorsi (osservando variabili e di condizionamento su di loro) che la prova possa scorrere su da e giù per . È un po 'complicato bloccare questi percorsi, ma Pearl fornisce un chiaro algoritmo che ti consente di sapere quali variabili devi osservare per bloccare questi percorsi.B A D B A BABADBAB

gung ha ragione nel dire che con una buona randomizzazione, i confondenti non contano. Dal momento che stiamo assumendo che non sia consentito intervenire sulla causa ipotetica (trattamento), qualsiasi causa comune tra la causa ipotetica (trattamento) e l'effetto (sopravvivenza), come l'età o la dimensione del calcolo renale, sarà fonte di confusione. La soluzione è prendere le giuste misure per bloccare tutte le porte posteriori. Per ulteriori letture vedi:

Perla, Giudea. "Diagrammi causali per la ricerca empirica." Biometrika 82.4 (1995): 669-688.


Per applicare questo al tuo problema, prima disegniamo il grafico causale. (Trattamento-precedente) formato di pietra renale e tipo di trattamento sono entrambi cause di successo . può essere una causa di se altri medici stanno assegnando il trattamento in base alla dimensione del calcolo renale. Chiaramente non esistono altre relazioni causali tra , , e . viene dopo quindi non può essere la sua causa. Analogamente viene dopo e .Y Z X Y X Y Z Y X Z X YXYZXYXYZYXZXY

Poiché è una causa comune, dovrebbe essere misurata. Spetta allo sperimentatore determinare l'universo di variabili e potenziali relazioni causali . Per ogni esperimento, lo sperimentatore misura le "variabili backdoor" necessarie e quindi calcola la distribuzione di probabilità marginale del successo del trattamento per ciascuna configurazione di variabili. Per un nuovo paziente, si misurano le variabili e si segue il trattamento indicato dalla distribuzione marginale. Se non puoi misurare tutto o non hai molti dati ma conosci qualcosa sull'architettura delle relazioni, puoi fare "propagazione delle credenze" (inferenza bayesiana) sulla rete.X


2
Risposta molto bella. Potresti dire brevemente come applicare questo framework all'esempio che faccio nella domanda? Fornisce la risposta prevista (A)?
Patata

Grazie! Conosci una buona e breve introduzione alla "propagazione delle credenze"? Sono interessato a saperne di più.
Patata

@Potato: l'ho imparato dal suo libro "Probabilistic Reasoning in Intelligent Systems". Ci sono molti tutorial online, ma è difficile trovarne uno che costruisca l'intuizione piuttosto che presentare semplicemente l'algoritmo.
Neil G,

22

Ho una risposta precedente che discute qui il paradosso di Simpson: il paradosso di base di Simpson . Potrebbe aiutarti a leggerlo per capire meglio il fenomeno.

In breve, il paradosso di Simpson si verifica a causa di confusione. Nel tuo esempio, il trattamento è confuso* con il tipo di calcoli renali che ogni paziente aveva. Dalla tabella completa dei risultati sappiamo che il trattamento A è sempre migliore. Pertanto, un medico dovrebbe scegliere il trattamento A. L'unico motivo per cui il trattamento B ha un aspetto migliore nell'insieme è che è stato somministrato più spesso ai pazienti con condizioni meno gravi, mentre il trattamento A è stato somministrato a pazienti con condizioni più gravi. Tuttavia, il trattamento A ha funzionato meglio con entrambe le condizioni. Come medico, non ti interessa il fatto che in passato il trattamento peggiore è stato dato ai pazienti che avevano le condizioni minori, ti preoccupi solo del paziente prima di te e se vuoi che il paziente migliori, fornirai con il miglior trattamento disponibile.

* Si noti che il punto di eseguire esperimenti e randomizzare i trattamenti è creare una situazione in cui i trattamenti non vengono confusi. Se lo studio in questione fosse un esperimento, direi che il processo di randomizzazione non è riuscito a creare gruppi equi, anche se potrebbe essere stato uno studio osservazionale - non lo so.


Opti per l'approccio di normalizzazione suggerito anche dall'altra risposta. Lo trovo problematico. È possibile esibire due partizioni dello stesso set di dati che danno conclusioni diverse quando normalizzate. Vedi il mio link e preventivo in risposta all'altra risposta.
Patata

2
Non ho letto l'articolo di Stanford. Tuttavia, non trovo convincente il ragionamento nella citazione. Può darsi che in alcune popolazioni il trattamento B sia migliore del trattamento A. Non importa. Se questo è vero per alcune popolazioni, è solo perché le caratteristiche della popolazione sono confuse. È affrontato con un paziente (non una popolazione) e quel paziente ha maggiori probabilità di migliorare durante il trattamento A prescindere dal fatto che quel paziente abbia calcoli renali grandi o piccoli. Dovresti scegliere il trattamento A.
gung - Ripristina Monica

2
La partizione giovane / vecchia è confusa? In caso contrario, questo non sarà un problema. In tal caso, utilizzeremo le informazioni complete per prendere la decisione migliore. Sulla base di ciò che sappiamo attualmente, il "trattamento B sembra migliore nell'aggregato" è un'aringa rossa. Sembra essere solo il caso a causa del confondimento, ma è un'illusione (statistica).
gung - Ripristina Monica

2
Avresti un tavolo più complicato che prendesse in considerazione sia la dimensione del calcolo renale sia l'età. Puoi vedere l' esempio del caso di pregiudizio di genere di Berkeley sulla pagina di Wikipedia.
gung - Ripristina Monica

1
Odio estendere i commenti così a lungo ma ... Non direi che il paradosso è sempre dovuto al confondimento. È a causa di una relazione tra le variabili che avrà una variabile confondente, ma non chiamerei tutte le variabili che portano a un paradosso di Simpson confondente (ad esempio peso di 30 anni e 90 anni x quantità di patatine consumate per ano - perché i vecchi di 90 anni sono molto più leggeri all'inizio con l'effetto principale dei chip che potrebbero essere negativi senza l'interazione inclusa. Tuttavia, non definirei l'età confusa (vedi la prima figura sulla pagina di Wikipedia)
John


4

Vuoi la soluzione per un esempio o il paradosso in generale? Non ce n'è per quest'ultimo perché il paradosso può sorgere per più di un motivo e deve essere valutato caso per caso.

Il paradosso è principalmente problematico quando si riportano i dati di sintesi ed è fondamentale nella formazione delle persone su come analizzare e riportare i dati. Non vogliamo che i ricercatori riportino statistiche riassuntive che nascondano o offuscano i modelli nei dati o che gli analisti non riescano a riconoscere quale sia il vero modello nei dati. Nessuna soluzione è stata data perché non esiste una soluzione.

In questo caso particolare, il medico con il tavolo sceglieva sempre sempre A e ignorava la riga di riepilogo. Non fa differenza se conoscono le dimensioni della pietra o no. Se qualcuno che analizza i dati avesse riportato solo le righe di riepilogo presentate per A e B, ci sarebbe un problema perché i dati ricevuti dal medico non rispeccherebbero la realtà. In questo caso probabilmente avrebbero anche dovuto lasciare l'ultima riga fuori dalla tabella poiché è corretta solo sotto un'interpretazione di ciò che dovrebbe essere la statistica riassuntiva (ce ne sono due possibili). Lasciare il lettore all'interpretazione delle singole celle avrebbe generalmente prodotto il risultato corretto.

(I tuoi copiosi commenti sembrano suggerire che sei più preoccupato per le disparità di N e Simpson è più ampio di così, quindi sono riluttante a soffermarmi ulteriormente sulla disparità di N. N. Forse fai una domanda più mirata. Inoltre, sembra che tu pensi sto sostenendo una conclusione di normalizzazione. Non sto. Sto sostenendo che è necessario considerare che la statistica riassuntiva è stata selezionata in modo relativamente arbitrario e che la selezione di alcuni analisti ha dato origine al paradosso. Sto inoltre sostenendo che si guardano le cellule avere.)


Lei afferma che dovremmo ignorare la riga di riepilogo. Perché questo è "chiaro"?
Patata

È chiaro perché il trattamento A è migliore con pietre grandi o piccole e B viene fuori solo a causa di N ineguali. Inoltre, l'ultima riga è un'interpretazione non evangelica. Esistono almeno due modi per calcolare quella linea. Lo calcoleresti in questo modo solo se vuoi dire qualcosa sul particolare campione.
Giovanni

Mi dispiace, non capisco perché la riga di riepilogo sia un rapporto errato. Penso che mi manchi il tuo punto centrale. Potresti spiegare per favore?
Patata

1
È possibile normalizzare e quindi media, il che dà il risultato "corretto" (A). Ma questo è illecito. La seguente citazione è tratta dall'articolo pertinente nella Stanford Encyclopedia of Philosophy, disponibile qui: plato.stanford.edu/entries/paradox-simpson
Potato

2
"Le inversioni di Simpson dimostrano che esistono numerosi modi di suddividere una popolazione in linea con le associazioni della popolazione totale. Una divisione per genere potrebbe indicare che sia i maschi che le femmine sono andati peggio quando dotati di un nuovo trattamento, mentre una divisione della stessa popolazione per età hanno indicato che i pazienti di età inferiore ai cinquanta anni e i pazienti di età pari o superiore a 50 anni sono andati entrambi meglio con il nuovo trattamento. La normalizzazione dei dati provenienti da diversi modi di suddividere la stessa popolazione fornirà conclusioni incompatibili sulle associazioni che detengono nella popolazione totale. "
Patata

4

Un "take away" importante è che se le assegnazioni di trattamento sono sproporzionate tra i sottogruppi, è necessario tener conto dei sottogruppi durante l'analisi dei dati.

Un secondo importante "take away" è che gli studi osservazionali sono particolarmente inclini a fornire risposte sbagliate a causa della presenza sconosciuta del paradosso di Simpson. Questo perché non possiamo correggere il fatto che il trattamento A tendesse a essere somministrato ai casi più difficili se non sappiamo che lo fosse.

In uno studio adeguatamente randomizzato possiamo (1) assegnare il trattamento in modo casuale in modo che dare un "vantaggio sleale" a un trattamento sia altamente improbabile e ci occuperemo automaticamente dell'analisi dei dati o, (2) se c'è un motivo importante per fare ciò, allocare i trattamenti in modo casuale ma sproporzionato sulla base di alcuni problemi noti e quindi tenerne conto durante l'analisi.


+1, tuttavia "prendersi cura automaticamente di" non è del tutto vero (almeno nella situazione immediata, che è ciò a cui tieni principalmente). È vero a lungo termine, ma si possono ancora riscontrare errori di tipo I e di tipo II a causa dell'errore di campionamento (vale a dire, i pazienti in 1 condizione di trattamento tendevano ad avere malattie più gravi per caso).
gung - Ripristina Monica

Ma l'effetto dell'errore di campionamento sarà preso in considerazione quando analizziamo la tabella di contingenza e calcoliamo e interpretiamo correttamente il valore p.
Emil Friedman,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.