Non transitività della correlazione: correlazioni tra genere e dimensione del cervello e tra dimensione del cervello e QI, ma nessuna correlazione tra genere e QI


18

Ho trovato una seguente spiegazione su un blog e vorrei ottenere maggiori informazioni sulla non transitività della correlazione:

Abbiamo i seguenti fatti indiscutibili:

  • In media, c'è una differenza nel volume del cervello tra uomini e donne
  • Esiste una correlazione tra QI e dimensioni del cervello; la correlazione è 0,33 e quindi corrisponde al 10% della variabilità del QI

Da queste premesse 1 e 2, sembra logicamente seguire da ciò: le donne hanno in media un QI inferiore rispetto agli uomini. Ma è un errore! In statistica, le correlazioni non sono transitive. La prova è che devi solo guardare i risultati dei test del QI e mostrano che il QI di uomini e donne non differisce in media.

Vorrei capire un po 'più a fondo questa non transitività della correlazione.

Se la correlazione tra QI e dimensioni del cervello fosse 0,9 (che io so che non lo è (1)), deducendo che le donne in media hanno un QI inferiore rispetto agli uomini sarebbe comunque un errore?

Per favore, non sono qui per parlare di QI (e dei limiti del test), sessismo, stereotipo femminile, arroganza e così via (2). Voglio solo capire il ragionamento logico dietro l'errore.


(1) che so che non lo è: i Neanderthal avevano un cervello più grande dell'homo sapiens, ma non erano più intelligenti;

(2) Sono una donna e, nel complesso, non mi considero né le altre donne meno intelligenti degli uomini, non mi interessa il test del QI, perché ciò che conta è il valore delle persone e non si basa sul abilità intellettuali.


La fonte originale in francese:

Su a les faits indiscutabili suivants:

  • la differenza di volume tra le donne e le donne
  • il prossimo incontro tra QI e volume generale; la correzione è 0,33 e corrisponde al 10% della variabilità

Per quanto riguarda la prima e la seconda, il semilogo del logicoment que: il femme ont en moyenne un QI inférieur aux hommes.

Mais c'è un errore di raisonnement! In termini statistici, le correzioni non sono mai transitorie. Il preuve, c'è tutto per la nostra rete, è sufficiente osservare i risultati delle prove di QI, e ceux-ci montrent que QI des hommes and the femmes ne different pas en moyenne.

inserisci qui la descrizione dell'immagine


5
Non capisco come queste affermazioni abbiano nulla a che fare con la correlazione (e riferirsi alla "transitività" sembra del tutto inappropriato in questo contesto). La conclusione, dopo tutto, ha a che fare con una differenza media. Tale statistica (che è un primo momento) è del tutto indipendente dalla correlazione (che deriva dai secondi momenti). Anche quando la correlazione è perfetta non si può trarre alcuna conclusione circa la differenza dei mezzi della seconda variabile in base alla differenza dei mezzi della prima variabile. ±1
whuber

5
Si può dimostrare (Langford, Schwertman e Owens (2001)) che la correlazione positiva è transitiva se la somma delle correlazioni al quadrato è maggiore di 1:ρXY2+ρYX2>1ρXZ>0
CloseToC

2
@whuber: Sì, ma questa non è una domanda sulla relazione tra i mezzi di X e Y (dimensione del cervello e QI), è la domanda sulla relazione tra i mezzi di Y in due diversi cluster ... Penso che sia ovvio che se la correlazione tra dimensione del cervello e QI è perfetta (cioè il QI è una funzione lineare della dimensione del cervello) e se la dimensione media del cervello differisce tra uomini e donne, allora il QI diverso differisce tra uomini e donne.
ameba dice di reintegrare Monica il

2
@Amoeba Grazie per l'interpretazione. La citazione inizia a dare un senso (finalmente!). Ma riferirsi a questo come "transitività della correlazione" è così oscuro da essere francamente fuorviante. (La frase è presente nel francese originale, quindi non possiamo nemmeno incolpare la traduzione.)
whuber

3
@amoeba È plausibile. Ma penso che devi allungare un po 'le cose per arrivare lì! La citazione non caratterizza la relazione tra genere e dimensione del cervello come una "correlazione" - solo come una differenza di mezzi tra i due gruppi (che non è una misura standard di correlazione, per inciso). Ma suppongo che dovremmo capire la "correlazione" in senso lato come "mancanza di dipendenza" o qualcosa del genere.
whuber

Risposte:


16

Sì, sarebbe comunque un errore.

Ecco una figura molto semplice che mostra quattro diverse situazioni. In ogni caso i punti rossi rappresentano le donne, il punto blu rappresenta gli uomini, l'asse orizzontale rappresenta la dimensione del cervello e l'asse verticale rappresenta il QI. Ho generato tutti e quattro i set di dati in modo che:

  • c'è sempre la stessa differenza nella dimensione media del cervello tra uomini ( ) e donne ( unità sono arbitrarie). Questi sono mezzi della popolazione, ma questa differenza è abbastanza grande da essere statisticamente significativa con qualsiasi dimensione del campione ragionevole;282228

  • c'è sempre una differenza zero nel QI medio tra uomini e donne (entrambi ), e anche zero correlazione tra genere e QI;100

  • la forza della correlazione tra dimensione del cervello e QI varia come mostrato nella figura.

correlazioni

Nella sottotrama in alto a sinistra la correlazione all'interno del genere (calcolata separatamente sugli uomini e separatamente sulle donne, quindi mediata) è , come nella tua citazione. Nella sottotrama in alto a destra la correlazione complessiva (tra uomini e donne insieme) è . Nota che il tuo preventivo non specifica a cosa si riferisce il numero di . Nella sottotrama in basso a sinistra la correlazione all'interno del genere è , come nel tuo esempio ipotetico; nella sottotrama inferiore destra la correlazione complessiva è 0.9 .0,3 0,330.30.30.330.90.9

Quindi puoi avere qualsiasi valore di correlazione e non importa se è calcolato nel complesso o all'interno del gruppo. Qualunque sia il coefficiente di correlazione, è molto probabile che esista una correlazione zero tra genere e QI e differenza di genere zero nel QI medio.


Esplorare la non transitività

Esploriamo l'intero spazio delle possibilità, seguendo l'approccio suggerito da @kjetil. Supponiamo di avere tre variabili e (senza perdita di generalità) supponiamo che la correlazione tra x 1 e x 2 sia a > 0 e la correlazione tra x 2 e x 3 sia b > 0 . La domanda è: qual è il minimo possibile valore positivo della correlazione λ tra x 1 e x 3x1,x2,x3x1x2a>0x2x3b>0λx1x3? A volte deve essere positivo o può essere sempre zero?

La matrice di correlazione è e deve avere un determinante non negativo, cioè senso che deve trovarsi traSe entrambe le radici sono positive, allora il valore minimo possibile di è uguale alla radice più piccola (e deve essere positivo!). Se zero è tra queste due radici, allora può essere zero. d e t R = - λ 2 + 2 a b λ - ( a 2 + b 2 - 1 ) 0 , λ a b ±

R=(1aλa1bλb1)
detR=λ2+2abλ(a2+b21)0,
λλλλ
ab±(1a2)(1b2).
λλλ

Possiamo risolverlo numericamente e tracciare il minimo possibile valore positivo di per diversi e :a bλab

Esplorare la non transitività

Informalmente, potremmo dire che le correlazioni sarebbero transitiva se dato che e , si potrebbe concludere che . Vediamo che per la maggior parte dei valori e , può essere zero, il che significa che le correlazioni sono non transitive. Tuttavia, per alcuni valori sufficientemente elevati di e , correlazione deve essere positiva , il che significa che v'è "certo grado di transitività" dopo tutto, ma limitata solo molto elevate correlazioni. Si noti che entrambe le correlazioni eb > 0 λ > 0 a b λ a b λ a ba>0b>0λ>0abλabλ ab devono essere alti.

Possiamo elaborare una condizione precisa per questa "transitività": come menzionato sopra, la radice più piccola dovrebbe essere positiva, cioè , che è equivalente aa2+b2>1ab(1a2)(1b2)>0a2+b2>1 . Questa è un'equazione di un cerchio! E in effetti, se guardi la figura sopra, noterai che la regione blu forma un quarto di cerchio.

Nel tuo esempio specifico, la correlazione tra genere e dimensione del cervello è abbastanza moderata (forse ) e la correlazione tra dimensione del cervello e QI è , che è saldamente all'interno della regione blu ( ) nel senso che può essere positivo, negativo o zero.b = 0,33 a 2 + b 2 < 1 λa=0.5b=0.33a2+b2<1λ


Figura pertinente dello studio originale

Volevi evitare di discutere di genere e cervelli, ma non posso fare a meno di sottolineare che guardando la figura completa dall'articolo originale ( Gur et al. 1999 ), si può vedere che mentre non c'è differenza di genere nel punteggio verbale del QI, c'è una differenza ovvia e significativa nel punteggio QI spaziale! Confronta i grafici secondari D e F.

Gur et al.


2
Adoro quelle trame che hai generato. Quelli del giornale, non tanto ...
Shadowtalker

1
@AleksandrBlekh: A dire il vero, non ne sono sicuro. "Mappa di calore"? "Trama di contorno" ma colorata e senza contorni?
ameba dice di ripristinare Monica

2
Grazie. Sta arrivando insieme. Ma permettetemi di sottolineare che (1) non dimostrate veramente, nella prima serie di grafici, che le correlazioni con il genere sono zero; e (2) alla fine, sebbene discutiate la "transitività" della correlazione, non avete ancora spiegato cosa intendete con questa frase. Certamente non ha il solito significato matematico di una relazione transitiva, quindi una spiegazione sarebbe utile. (A proposito, alla fine, sembra che stiate discutendo piuttosto che . In altre parole, avete analizzato la correlazione assoluta piuttosto che la correlazione stessa.)|λ|λ
whuber

1
@whuber: osservazioni molto buone, grazie. (1) In effetti, la correlazione con il genere è zero per costruzione! Immagino che dovrei cambiare questa cifra per riportare le correlazioni della popolazione anziché quelle del campione. Mentre sto generando i dati da solo, ho il pieno controllo sui parametri della popolazione. (2) Per transitività I informale significava che le correlazioni positive tra ed , e e implicano una correlazione positiva tra ey y zxyyzxzab0λ0
ameba dice di ripristinare Monica

1
Grazie ameba per questa risposta lunga e dettagliata (e persino aggiunta in più, molto gradita a proposito)! Rende le cose cristal chiare! Il concetto è così difficile da afferrare per il mio cervello statisticamente non allenato e hai ombreggiato la luce sul problema! Grazie mille per il tempo che hai impiegato per pubblicare la tua risposta!
MagTun

8

x1=IQ,x2=genderx3

cor(x1,x2)=λ,cor(x1,x3)=cor(x2,x3)=ρ=0.9
λ
R=(1λρλ1ρρρ1)
ρ
detR=1(1ρ2)λ(λρ2)+ρ(λρρ)=1λ22ρ2+2λρ20,
ρ2λ+12ρ=0.9λ0.62

Aggiornare:

In risposta ai commenti ho aggiornato in qualche modo la risposta sopra. Ora, cosa possiamo fare di questo? Secondo i calcoli di cui sopra, una correlazione di 0,9 tra QI e volume del cervello (molto più grande di quello empirico). Quindi, la correlazione tra genere e QI deve essere almeno 0,62. Cosa significa? Nei commenti alcuni dicono che ciò non implica nulla sulle differenze medie tra i sessi. Ma questo non può essere vero! Sì, per variabili normalmente distribuite possiamo assegnare correlazione e mezzi senza relazioni. Ma genere è una variabile zero-uno, per tale variabile non è una relazione tra correlazione e differenze medie. Concretamente, il QI è (diciamo) normalmente distribuito, mentre il genere è discreto, zero-uno. Supponiamo che la sua mediaμ 1 = E ( x 1 |p=0.5(realisticamente). Quindi una (diciamo) correlazione positiva significa che il genere tende ad essere "più alto" (cioè uno) se il QI è più alto. Ciò non può accadere senza che ci sia una differenza media! Facciamo l'algebra: in primo luogo, per semplificare l'algebra, centriamo il QI su zero invece dei soliti 100. Ciò non cambierà alcuna correlazione o differenza media. Sia e . Con significa poiché . Abbiamo e è Bernoulli con .μ1=E(x1|x2=1)μ0=E(x1|x2=0)μ=E(x1)μ=0=μ1+μ0μ0=μ1x1N(μ=0,σ2)x2p=1/2

corr(x1,x2)=E(x1μ)E(x2p)σ12=Δ2σ
dove . Con il solito valore (per QI) questo dà che la correlazione è uguale a . Quindi una correlazione di 0,62 indica una differenza di QI di 12,4. Quindi i poster che sostengono la correlazione contengono nΔ=μ1μ0=2μ1σ=10Δ/20le informazioni sulla differenza media IQ sono errate! Ciò sarebbe vero se il genere fosse una variabile continua, cosa che ovviamente non lo è. Si noti che questo fatto è correlato al fatto che per la distribuzione binomiale, la varianza è una funzione della media (come deve essere, poiché c'è solo un parametro libero da variare). Ciò che abbiamo fatto sopra è davvero estendere questo alla covarianza / correlazione.

Ma, secondo l'OP, il vero valore di . Quindi la disuguaglianza diventa quella , quindi è un valore possibile. Quindi, nel vero caso, non è possibile trarre conclusioni sulle differenze medie nel QI dalla correlazione tra QI e volume del cervello.λ -ρ=0.33λ0.7822λ=0


1
E come ci aiuta a dedurre (anche se fallibilmente) ? Mi sto perdendo qualcosa di fondamentale qui? E ( x 1 ) E ( x 2 )cor(x1,x2)0.62E(x1)E(x2)
Khashaa,

5
+1 - Ma trovo che il concetto di correlazione tra il QI di uomini e donne sia alquanto confuso, in quanto non si potrebbe mai calcolare un tale valore.
Andy W,

1
Qual è la correlazione tra QI maschile e femminile dovrebbe significare ?!
ameba dice di ripristinare Monica

sì, è vero @amoeba! Potrei non aver usato le parole giuste per esprimere la mia confusione (è difficile perché non sono abituato alle statistiche) ma le variabili sono in effetti sesso, QI e dimensioni del cervello.
MagTun

7

Questa è una situazione in cui mi piace usare i diagrammi di percorso per illustrare gli effetti diretti e gli effetti indiretti e come questi due influenzano le correlazioni generali.

Per la descrizione originale abbiamo una matrice di correlazione di seguito. La dimensione del cervello ha una correlazione di circa 0,3 con IQ, la femmina e IQ hanno una correlazione 0 tra loro. Compilare la correlazione negativa tra la dimensione femminile e quella del cervello a -0,3 (se dovessi indovinare è molto più piccola di quella, ma questo servirà a scopo illustrativo).

       Brain  Female  IQ
 Brain   1
Female  -0.3    1
    IQ   0.3    0      1

Se adattiamo un modello di regressione in cui il QI è una funzione delle dimensioni del cervello e dell'essere femmina, possiamo illustrarlo in termini di diagramma del percorso. Ho compilato i coefficienti di regressione parziale sulle frecce e il nodo B indica la dimensione del cervello e il nodo F indica la femmina.

inserisci qui la descrizione dell'immagine

Ora, quanto è folle - controllando le dimensioni del cervello, date queste correlazioni, le femmine hanno una relazione positiva con il QI. Perché, quando la correlazione marginale è zero? Per regole con diagrammi di percorso lineari ( Wright, 1934 ), possiamo scomporre la correlazione marginale in funzione dell'effetto diretto quando controlliamo le dimensioni del cervello e l'effetto indiretto:

TotalF,IQ=DirectF,IQ+IndirectF,B,IQ

TotalF,IQ=Cor(F,IQ)

IndirectF,B,IQ=Cor(F,B)Cor(B,IQ|F)0.099=0.30.33

Poiché l'effetto totale è zero, sappiamo che l'effetto diretto deve essere semplicemente il segno e la dimensione esattamente opposti dell'effetto indiretto , quindi l'effetto diretto è uguale a 0,099 in questo esempio. Ora, qui abbiamo una situazione nella valutazione del QI atteso delle femmine otteniamo due risposte diverse, anche se probabilmente non è quello che inizialmente ti aspettavi quando hai specificato la domanda. Quando si valuta semplicemente il QI marginale atteso delle femmine rispetto ai maschi, la differenza è zero come definita (avendo una correlazione zero). Quando si valuta la differenza attesa in base alla dimensione del cervello, le femmine hanno un QI maggiore rispetto ai maschi.

È possibile inserire in questo esempio correlazioni più grandi tra dimensione del cervello e QI (o correlazioni minori tra dimensione femminile e cervello), dati i limiti mostrati da Kjetil nella sua risposta. L'aumento del primo aumenta ulteriormente la disparità tra il QI condizionale di donne e uomini a favore delle donne, diminuendo il secondo si riducono le differenze.


Se guardi l'immagine fornita, mostra una correlazione positiva (e più forte degli uomini) del volume del cervello delle donne con il QI.
Alecos Papadopoulos,

1
@Andy W Mi vergogno totalmente di fare questa domanda stupida, ma quale software hai usato per disegnare il grafico dei nodi?
Mugen,

1
È stato un lavoro veloce in inkscape @mugen. Prendendo più tempo penso che quelli che realizzo usando Latex e Tikz siano più belli.
Andy W,

+1 Potresti indicarmi la teoria alla base della tua seconda formula?
Aleksandr Blekh,

2
@AleksandrBlekh - il documento di Wright che cito è la fonte fondamentale. La Judea Pearl inserisce un commento più ampio nel suo libro sulla causalità , sebbene ci siano trattamenti più semplici. (Per i modelli lineari le scomposizioni sono spesso trattate in modo superficiale nei libri di modellazione delle equazioni strutturali.)
Andy W

3

vq12

(1)E(v1)>E(v2)=βE(v1),0<β<1,ρ(v1,q1)>0,ρ(v2,q2)>0

Si noti che mentre il testo citato parla della "correlazione tra volume del cervello e QI" in generale, l'immagine fornita fa una distinzione con le due linee di tendenza (cioè mostra la correlazione per i due sottogruppi separatamente). Quindi li consideriamo separatamente (che è la strada giusta da percorrere).

Poi

ρ(v1,q1)>0Cov(v1,q1)>0E(v1q1)>E(v1)E(q1)

(2)E(v1q1)E(q1)>E(v1)

e

ρ(v2,q2)>0Cov(v2,q2)>0E(v2q2)>E(v2)E(q2)

(3)E(v2q2)βE(q2)>E(v1)

E(q1)>E(q2)

(4)E(q1)=E(q2)=q¯

Quindi deve essere così

(5)(2),(4)E(v1q1)q¯>E(v1)

e quello

(6)(3),(4)E(v2q2)βq¯>E(v1)

(5)(6)
(1)

(1)E(q1)E(q2)(1)


2
Nonostante tutti i calcoli mostrati qui, non vedo ancora come la correlazione riveli qualcosa (o imponga alcun vincolo di sorta) riguardo alle relazioni tra valori medi .
whuber

@whuber L'intera risposta è mostrare che non lo è. Le ultime frasi dicono esattamente questo. Aggiungiamo un altro in tal senso.
Alecos Papadopoulos,

Ma questo è assolutamente di base: non è necessaria un'intera pagina di equazioni per mostrarlo! È sufficiente osservare che i coefficienti di correlazione sono invarianti di posizione, QED . Sto interpretando male la domanda?
whuber

1
@whuber Con tutto il dovuto rispetto e senza offesa per nessuno, ma temo che tu stia "fraintendendo" il livello di conoscenza del PO. Altrimenti, la domanda non sarebbe stata pubblicata.
Alecos Papadopoulos,

4
Ti incoraggio, quindi, a riflettere sul se e sul modo in cui qualsiasi risposta che si basa fortemente su equazioni matematiche sia appropriata per affrontare i poster che sembrano richiedere esposizioni elementari di concetti di base. Questo è un problema sottile perché a volte è esattamente l'approccio giusto. Inoltre, il grado in cui si usa la matematica - e come si espongono le idee matematiche - può essere una questione di gusti. Ma IMHO questo tipo di risposta è efficace solo quando la matematica è chiara e costantemente focalizzata su un'idea essenziale.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.