Quella che segue è una domanda sulle molte visualizzazioni offerte come "prova per immagine" dell'esistenza del paradosso di Simpson, e forse una domanda sulla terminologia.
Il paradosso di Simpson è un fenomeno abbastanza semplice da descrivere e fornire esempi numerici (la ragione per cui ciò può accadere è profonda e interessante). Il paradosso è che esistono tabelle di contingenza 2x2x2 (Agresti, Analisi dei dati categorici) in cui l'associazione marginale ha una direzione diversa da ogni associazione condizionale.
Cioè, il confronto dei rapporti in due sottopopolazioni può andare entrambi in una direzione ma il confronto nella popolazione combinata va nell'altra direzione. In simboli:
Esistono tali che a + b
ma e
Questo è accuratamente rappresentato nella seguente visualizzazione (da Wikipedia ):
Una frazione è semplicemente la pendenza dei vettori corrispondenti ed è facile vedere nell'esempio che i vettori B più corti hanno una pendenza maggiore rispetto ai vettori L corrispondenti, ma il vettore B combinato ha una pendenza più piccola del vettore L combinato.
Esiste una visualizzazione molto comune in molte forme, una in particolare all'inizio di quel riferimento di Wikipedia su Simpson:
Questo è un ottimo esempio di confusione, come una variabile nascosta (che separa due sottopopolazioni) può mostrare uno schema diverso.
Tuttavia, matematicamente, tale immagine non corrisponde in alcun modo a una visualizzazione delle tabelle di contingenza che sono alla base del fenomeno noto come il paradosso di Simpson . Innanzitutto, le linee di regressione sono su dati di set di punti con valori reali, non contano i dati da una tabella di contingenza.
Inoltre, è possibile creare set di dati con una relazione arbitraria delle pendenze nelle linee di regressione, ma nelle tabelle di contingenza, esiste una limitazione nella differenza tra le pendenze. Cioè, la linea di regressione di una popolazione può essere ortogonale a tutte le regressioni delle sottopopolazioni date. Ma nel Paradox di Simpson i rapporti delle sottopopolazioni, sebbene non una pendenza di regressione, non possono allontanarsi troppo dalla popolazione amalgamata, anche se nella direzione opposta (di nuovo, vedi l'immagine di confronto del rapporto da Wikipedia).
Per me, è abbastanza per essere colto di sorpresa ogni volta che vedo quest'ultima immagine come una visualizzazione del paradosso di Simpson. Ma poiché vedo gli esempi (quello che chiamo sbagliato) ovunque, sono curioso di sapere:
- Mi sto perdendo una sottile trasformazione dagli esempi originali Simpson / Yule delle tabelle di contingenza in valori reali che giustificano la visualizzazione della linea di regressione?
- Sicuramente Simpson è un caso particolare di errore confondente. Il termine 'Paradosso di Simpson' ora è stato identificato con un errore confondente, in modo che qualunque sia la matematica, qualsiasi cambiamento di direzione attraverso una variabile nascosta può essere chiamato Paradosso di Simpson?
Addendum: ecco un esempio di generalizzazione in una tabella 2xmxn (o 2 per m in continuo):
Se combinato con il tipo di tiro, sembra che un giocatore faccia più tiri quando i difensori sono più vicini. Raggruppati per tipo di tiro (distanza dal canestro in realtà), si verifica la situazione più intuitivamente attesa, che più colpi vengono fatti più i difensori in trasferta.
Questa immagine è quella che considero una generalizzazione di Simpson in una situazione più continua (distanza dei difensori). Ma non vedo ancora come l'esempio della linea di regressione sia un esempio di Simpson.