Il Paradox di Simpson copre tutte le istanze di inversione da una variabile nascosta?


10

Quella che segue è una domanda sulle molte visualizzazioni offerte come "prova per immagine" dell'esistenza del paradosso di Simpson, e forse una domanda sulla terminologia.

Il paradosso di Simpson è un fenomeno abbastanza semplice da descrivere e fornire esempi numerici (la ragione per cui ciò può accadere è profonda e interessante). Il paradosso è che esistono tabelle di contingenza 2x2x2 (Agresti, Analisi dei dati categorici) in cui l'associazione marginale ha una direzione diversa da ogni associazione condizionale.

Cioè, il confronto dei rapporti in due sottopopolazioni può andare entrambi in una direzione ma il confronto nella popolazione combinata va nell'altra direzione. In simboli:

Esistono tali che a + ba,b,c,d,e,f,g,h

a+bc+d>e+fg+h

ma e

ac<eg

bd<fh

Questo è accuratamente rappresentato nella seguente visualizzazione (da Wikipedia ):

il paradosso di simpson nei vettori

Una frazione è semplicemente la pendenza dei vettori corrispondenti ed è facile vedere nell'esempio che i vettori B più corti hanno una pendenza maggiore rispetto ai vettori L corrispondenti, ma il vettore B combinato ha una pendenza più piccola del vettore L combinato.

Esiste una visualizzazione molto comune in molte forme, una in particolare all'inizio di quel riferimento di Wikipedia su Simpson:

pendenze contrarie nelle sottopopolazioni

Questo è un ottimo esempio di confusione, come una variabile nascosta (che separa due sottopopolazioni) può mostrare uno schema diverso.

Tuttavia, matematicamente, tale immagine non corrisponde in alcun modo a una visualizzazione delle tabelle di contingenza che sono alla base del fenomeno noto come il paradosso di Simpson . Innanzitutto, le linee di regressione sono su dati di set di punti con valori reali, non contano i dati da una tabella di contingenza.

Inoltre, è possibile creare set di dati con una relazione arbitraria delle pendenze nelle linee di regressione, ma nelle tabelle di contingenza, esiste una limitazione nella differenza tra le pendenze. Cioè, la linea di regressione di una popolazione può essere ortogonale a tutte le regressioni delle sottopopolazioni date. Ma nel Paradox di Simpson i rapporti delle sottopopolazioni, sebbene non una pendenza di regressione, non possono allontanarsi troppo dalla popolazione amalgamata, anche se nella direzione opposta (di nuovo, vedi l'immagine di confronto del rapporto da Wikipedia).

Per me, è abbastanza per essere colto di sorpresa ogni volta che vedo quest'ultima immagine come una visualizzazione del paradosso di Simpson. Ma poiché vedo gli esempi (quello che chiamo sbagliato) ovunque, sono curioso di sapere:

  • Mi sto perdendo una sottile trasformazione dagli esempi originali Simpson / Yule delle tabelle di contingenza in valori reali che giustificano la visualizzazione della linea di regressione?
  • Sicuramente Simpson è un caso particolare di errore confondente. Il termine 'Paradosso di Simpson' ora è stato identificato con un errore confondente, in modo che qualunque sia la matematica, qualsiasi cambiamento di direzione attraverso una variabile nascosta può essere chiamato Paradosso di Simpson?

Addendum: ecco un esempio di generalizzazione in una tabella 2xmxn (o 2 per m in continuo): cestini percentuali realizzati rispetto alla distanza, la variabile nascosta è il tipo di tiro

Se combinato con il tipo di tiro, sembra che un giocatore faccia più tiri quando i difensori sono più vicini. Raggruppati per tipo di tiro (distanza dal canestro in realtà), si verifica la situazione più intuitivamente attesa, che più colpi vengono fatti più i difensori in trasferta.

Questa immagine è quella che considero una generalizzazione di Simpson in una situazione più continua (distanza dei difensori). Ma non vedo ancora come l'esempio della linea di regressione sia un esempio di Simpson.


5
Il paradosso di Simpson non si applica solo ai dati di destinazione categorici. I dati target continui con un fattore categorico che li influenza, come nel grafico finale, possono essere soggetti al paradosso. La chiave è che il "fattore categorico", indipendentemente dal fatto che la variabile di interesse sia categorica, o se uno o tutti gli altri fattori che influenzano la variabile di interesse sono categorici.
jbowman,

@jbowman OK, posso vedere che SP potrebbe essere generalizzabile oltre i dati categoriali su continuo (non ho visto quella generalizzazione; SP sembra essere sempre presentato con tabelle di contingenza), ma non vedo come corrisponda il secondo grafico. Voglio dire, vedo l'ovvia ma vaga metafora "una variabile nascosta può cambiare la direzione", ma non vedo come la generalizzazione funzioni matematicamente / precisamente.
Mitch,

1
Hai un fattore categorico nascosto che fa sì che i dati "reali" seguano le due linee colorate, ma a loro insaputa i dati sembrano seguire la linea tratteggiata. Considera gli incidenti di guida per età come variabili target e dell'asse x, non categoriche. Sembrano andare giù con l'età, giusto? Ora aggiungi il "fattore nascosto" di "guida da ubriaco". La linea blu sarebbe "guida da ubriaco", quella rossa "guida da non ubriaco". Dato quel fattore nascosto, correlato con la gioventù, gli incidenti aumentano con l'età! (Non l'esempio più realistico, devo ammetterlo, ma è l'idea che conta ...)
jbowman

@jbowman Sembra solo una spiegazione dell'errore confondente piuttosto che di SP. Forse stai dicendo che SP e confusione sono gli stessi. Ma questo suona nella direzione di una risposta; forse potresti formalizzarlo un po 'di più e rendere più esplicita la connessione con SP (spiega matematicamente come le linee di regressione siano in qualche modo come i confronti di rapporto nel caso della tabella di contingenza).
Mitch,

1
xp

Risposte:


8

Il paradosso è che esistono tabelle di contingenza 2x2x2 (Agresti, Analisi dei dati categorici) in cui l'associazione marginale ha una direzione diversa rispetto a ciascuna associazione condizionale [...] Mi manca una trasformazione sottile dagli esempi originali Simpson / Yule di tabelle di contingenza in valori reali che giustificano la visualizzazione della linea di regressione?

Il problema principale è che stai equiparando un modo semplice per mostrare il paradosso come il paradosso stesso. Il semplice esempio della tabella di contingenza non è di per sé il paradosso. Il paradosso di Simpson riguarda intuizioni causali contrastanti quando si confrontano associazioni marginali e condizionali, molto spesso a causa di inversioni di segni (o attenuazioni estreme come l'indipendenza, come nell'esempio originale dato dallo stesso Simpson , in cui non c'è un'inversione di segni). Il paradosso sorge quando si interpretano causalmente entrambe le stime, il che potrebbe portare a conclusioni diverse --- il trattamento aiuta o danneggia il paziente? E quale stima dovresti usare?

E(Y|X)X>0E(Y|X,C=c)X<0,c

Sicuramente Simpson è un caso particolare di errore confondente.

Questo non è corretto! Il paradosso di Simpson non è un caso particolare di errore confondente - se fosse solo quello, allora non ci sarebbe alcun paradosso. Dopotutto, se sei sicuro che qualche relazione sia confusa, non saresti sorpreso di vedere inversioni di segni o attenuazioni nelle tabelle di contingenza o coefficienti di regressione --- forse te lo aspetteresti.

Quindi, mentre il paradosso di Simpson si riferisce a un'inversione (o estrema attenuazione) di "effetti" quando si confrontano associazioni marginali e condizionali, ciò potrebbe non essere dovuto al confondimento e, a priori, non si può sapere se la tabella marginale o condizionale è la "corretta" "uno da consultare per rispondere alla tua domanda causale. Per fare ciò, è necessario conoscere meglio la struttura causale del problema.

Considera questi esempi forniti in Pearl : inserisci qui la descrizione dell'immagine

XYZZZZZ

La spiegazione di Pearl del perché questo è stato considerato un "paradosso" e del motivo per cui confonde ancora le persone è molto plausibile. Prendiamo ad esempio il semplice caso raffigurato in (a): gli effetti causali non possono semplicemente ribaltarsi in quel modo. Quindi, se assumiamo erroneamente che entrambe le stime siano causali (marginale e condizionale), saremmo sorpresi nel vedere accadere una cosa del genere --- e gli umani sembrano essere collegati per vedere la causalità nella maggior parte delle associazioni.

Quindi torniamo alla domanda principale (titolo):

Il Paradox di Simpson copre tutte le istanze di inversione da una variabile nascosta?

In un certo senso, questa è l'attuale definizione del paradosso di Simpson. Ma ovviamente la variabile di condizionamento non è nascosta, deve essere osservata altrimenti non vedresti il ​​paradosso accadere. La maggior parte della parte sconcertante del paradosso deriva da considerazioni causali e questa variabile "nascosta" non è necessariamente un fattore di confusione.

Tabelle delle contingenze e regressione

yxz

yx

a+bc+de+fg+h=cov(y,x)var(x)

zz=1

aceg=cov(y,x|z=1)var(x|z=1)

z=0

bdfh=cov(y,x|z=0)var(x|z=0)

(cov(y,x)var(x))(cov(y,x|z)var(x|z))(cov(y,x)var(x))


1
Sembra che, secondo te, il paradosso di Simpson si riferisca non solo alla possibilità di una differenza nelle associazioni marginali e condizionali, ma anche alla confusione su quale sia "giusto" usare nell'interpretazione dei dati? E Pearl mostra che la struttura causale è ciò che dovremmo usare per decidere questo?
Paul,

2
"Il paradosso di Simpson riguarda intuizioni contrastanti quando si confrontano le associazioni marginali e condizionali". Non sono d'accordo qui, il paradosso di Simpson si riferisce specificamente a un capovolgimento quando si confronta il greggio con risultati stratificati.
AdamO,

2
@AdamO mentre la maggior parte delle persone usa il caso estremo di inversione dei segni come definizione "rigorosa" del paradosso di Simpson, l'esempio originale di Simpson in realtà non ha avuto inversione di segni.
Carlos Cinelli,

1
@Paul è esattamente giusto.
Carlos Cinelli,

2
@AdamO Penso che la spiegazione di Pearl del perché questo sia stato considerato un "paradosso" e del motivo per cui confonde ancora le persone sia plausibile. Nel semplice caso di (a), ad esempio, gli effetti causali non possono semplicemente invertirsi in quel modo. Quindi, se pensiamo in modo causale per entrambi i casi, saremmo sorpresi di vedere accadere una cosa del genere --- e gli umani sembrano essere collegati per vedere la causa nella maggior parte delle associazioni.
Carlos Cinelli,

2

Mi sto perdendo una sottile trasformazione dagli esempi originali Simpson / Yule delle tabelle di contingenza in valori reali che giustificano la visualizzazione della linea di regressione?

Sì. Una rappresentazione simile di analisi categoriche è possibile visualizzando le probabilità del registro di risposta sull'asse Y. Il paradosso di Simpson appare più o meno allo stesso modo con una linea "grezza" che corre contro le tendenze specifiche dello strato ponderate in distanza in base alle probabilità di log del referente dello strato del risultato.

Ecco un esempio con i dati di ammissione di Berkeley

inserisci qui la descrizione dell'immagine

Qui il genere è un codice maschio / femmina, sull'asse X c'è il registro delle ammissioni grezze per maschio contro femmina, la linea nera tratteggiata pesante mostra la preferenza di genere: la pendenza positiva suggerisce una propensione verso le ammissioni maschili. I colori rappresentano l'ammissione a dipartimenti specifici. In tutti i casi tranne due, l'inclinazione della linea delle preferenze di genere specifica per reparto è negativa. Se questi risultati sono mediati insieme in un modello logistico che non tiene conto dell'interazione, l'effetto complessivo è un'inversione che favorisce le ammissioni femminili. Si applicavano a reparti più difficili più frequentemente dei maschi.

Sicuramente Simpson è un caso particolare di errore confondente. Il termine 'Paradosso di Simpson' ora è stato identificato con un errore confondente, in modo che qualunque sia la matematica, qualsiasi cambiamento di direzione attraverso una variabile nascosta può essere chiamato Paradosso di Simpson?

In breve, no. Il paradosso di Simpson è semplicemente il "cosa" mentre il confondimento è il "perché". La discussione dominante si è concentrata su dove sono d'accordo. La confusione può avere un effetto minimo o trascurabile sulle stime, e in alternativa il paradosso di Simpson, sebbene drammatico, può essere causato da non confondenti. Come nota, i termini "nascosto" o "in agguato" sono imprecisi. Dal punto di vista dell'epidemiologo, un attento controllo e la progettazione dello studio dovrebbero consentire la misurazione o il controllo di possibili contributori a distorsioni di confusione. Non devono essere "nascosti" per essere un problema.

Ci sono momenti in cui le stime puntuali possono variare drasticamente, fino al punto di inversione, che non risulta da confusione. Collezionisti e mediatori sono anche effetti di cambiamento, possibilmente invertendoli. Il ragionamento causale avverte che per lo studio degli effetti, l'effetto principale dovrebbe essere studiato isolatamente piuttosto che adattarsi a questi poiché la stima stratificata è errata. (È come dedurre, erroneamente, che vedere il medico ti fa star male o che le pistole uccidono le persone, quindi le persone non uccidono le persone).


Quindi diresti che l'esempio originale di Simpson non è un caso di "paradosso di Simpson"?
Carlos Cinelli,

@CarlosCinelli a quale esempio ti riferiresti? Non ho accesso al documento di Simpson del 1951, ma dato che è pubblicato in JRSS e non ha alcun riferimento ad un esempio applicato in astratto, sembra un lavoro puramente teorico.
AdamO,

È l'esempio numerico dei paragrafi 9 e 10, in cui fornisce le stesse tabelle di contingenza con due storie diverse che porterebbero a due diverse interpretazioni causali. In questo esempio non c'è inversione di segno, solo indipendenza marginale.
Carlos Cinelli,

2
Per capire perché qui l'inversione del segno è insignificante, immagina una situazione in cui un trattamento mostra un'associazione estremamente forte per uomini e donne, ma mostra solo una piccola associazione nella popolazione in generale. Questo sarebbe ancora paradossale anche per la maggior parte delle persone, se interpretato in modo causale.
Carlos Cinelli,

@CarlosCinelli Avrei detto che era un esempio di confusione, ma non il paradosso di Simpson in sé, ma non acconsentirò al punto, penso che tu abbia fatto una buona argomentazione e forse stavo sostenendo alcune ipotesi errate su ciò che era e non era il fenomeno sfuggente del paradosso di Simpson.
AdamO,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.