Significato del coefficiente di correlazione medio


11

Disclaimer: se ritieni che questa domanda sia troppo simile a un'altra, sono felice che si fonda. Tuttavia, non ho trovato una risposta soddisfacente da nessun'altra parte (e non ho ancora la "reputazione" di commentare o votare), quindi ho pensato che sarebbe meglio porre una nuova domanda da solo.

La mia domanda è questa Per ciascuno dei 12 soggetti umani, ho calcolato un coefficiente di correlazione (Spearman's rho) tra 6 livelli di una variabile indipendente X e osservazioni corrispondenti di una variabile dipendente Y. (Nota: i livelli di X non sono uguali tra i soggetti.) Mio l'ipotesi nulla è che nella popolazione generale questa correlazione sia uguale a zero. Ho testato questa ipotesi in due modi:

  1. Utilizzando un test t di un campione sui coefficienti di correlazione ottenuti dai miei 12 soggetti.

  2. Centrando i miei livelli di X e le osservazioni di Y in modo tale che per ciascun partecipante, media (X) = 0 e media (Y) = 0, e quindi calcolando una correlazione sui dati aggregati (72 livelli di X e 72 osservazioni di Y) .

Ora, dalla lettura del lavoro con i coefficienti di correlazione (qui e altrove) ho iniziato a dubitare che il primo approccio sia valido. In particolare, ho visto la seguente equazione apparire in diversi punti, presentata (apparentemente) come un test t per i coefficienti di corelazione medi:

t=rSEr=n21r2

dove sarebbe il coefficiente di correlazione medio (e supponiamo di averlo ottenuto utilizzando prima la trasformazione di Fisher sui coefficienti per soggetto) e n il numero di osservazioni. Intuitivamente, questo mi sembra sbagliato in quanto non include alcuna misura della variabilità tra soggetti. In altre parole, se avessi 3 coefficienti di correlazione, otterrei la stessa statistica t se fossero [0,1, 0,5, 0,9] o [0,45 0,5 0,55] o qualsiasi intervallo di valori con la stessa media (e n = 3 )rnn=3

Sospetto, pertanto, che l'equazione di cui sopra non si applichi in realtà quando si verifica la significatività di una media dei coefficienti di correlazione, ma quando si verifica la significatività di un singolo coefficiente di correlazione basato su osservazioni di 2 variabili.n

Qualcuno qui potrebbe confermare questa intuizione o spiegare perché è sbagliato? Inoltre, se questa formula non si applica al mio caso, qualcuno conosce un approccio corretto? O forse il mio test numero 2 è già valido? Qualsiasi aiuto è molto apprezzato (compresi i suggerimenti per le risposte precedenti che potrei aver perso o interpretato male).


2
La di Pearson è insensibile alle trasformazioni di centratura e ridimensionamento, quindi penso che la centratura sia irrilevante per la tua domanda. Ad esempio, cor ( X , Y ) = cor ( X , Y - ˉ Y ) = cor ( X , Y + 1000 ) = cor ( X , Y × 1000 ). rX,YX,Y-Y¯X,Y+1000X,Y×1000
Alexis,

Sono d'accordo con te. Ecco perché ho interpretato la centratura come "centrare ciascuna variabile separatamente prima di metterle insieme".
Federico Tedeschi,

1
@FedericoTedeschi Non "centrare ciascuna variabile separatamente prima di metterle insieme" cosa significa ? Y-Y¯
Alexis,

@Alexis ti ho risposto in fondo alla mia risposta (sarebbe stato troppo lungo per scriverlo in un commento, e avrei anche dovuto correggerlo più volte a causa del problema WYSINWYG).
Federico Tedeschi,

Risposte:


2

Un approccio migliore all'analisi di questi dati consiste nell'utilizzare un (alias modello a effetti misti, modello gerarchico) con subjectcome effetto casuale (intercetta casuale o intercetta casuale + pendenza). Per riassumere una mia diversa risposta :

Questa è essenzialmente una regressione che modella una singola relazione complessiva, pur consentendo a tale relazione di differire tra i gruppi (i soggetti umani). Questo approccio beneficia del pool parziale e utilizza i dati in modo più efficiente.


-1

Suppongo che le variabili ( 6 X e 6 Y ) siano uguali per tutti gli individui (in realtà non sono sicuro di capire cosa intendi dicendo che i livelli non sono uguali tra i soggetti: spero che tu lo sia riferendosi all'indipendenza tra gli intervalli delle variabili, non a quali variabili vengono misurate per ciascun individuo). Sì, la formula che hai mostrato si applica al coefficiente di correlazione tra due variabili.126 X6 Y

Nel tuo punto 2, parli di normalizzazione: penso che avrebbe senso se lo facessi per ciascuna delle variabili separatamente. Tuttavia, anche così, il problema con questo approccio è che non controlla la dipendenza all'interno dell'individuo.62

Credo che anche il tuo approccio 1 non sia valido, perché sarebbe un test tra variabili con distribuzione t con soli 10 gradi di libertà, quindi non penso che in questo caso tu possa applicare il Teorema del limite centrale.6t10

Forse, con numeri più grandi, potresti usare un approccio a effetto casuale, consentendo una pendenza casuale e testando contemporaneamente sia un coefficiente medio nullo (di su Y i ) sia la non esistenza di un coefficiente casuale. Credo comunque che 6 variabili e 12 osservazioni non siano sufficienti per farlo.XiYi

Ti suggerisco di vederlo come un test su 6 valori (diventando 12 se consideri anche valori al di sotto della diagonale) della matrice di correlazione tra le variabili (sia X che Y ), cioè quelle sulla diagonale del 2 ° (e equivalentemente del 3 °) quadrante. Pertanto, farei un test del rapporto di verosimiglianza tra il modello limitato e quello non limitato.12XY

@Alexis La mia comprensione è che centrando , Y 1 , ... , Y 6 , sostituendoli con X 1 = X 1 - ¯ X 1 , ... , X 6 = X 6 - ¯ X 6 , Y 1 = Y 1 - ¯ Y 1 , , Y X1,...,X6Y1,...,Y6 avrebbe senso (penso che avrebbe anche senso dividerli per i loroSE). In questo modo, le variabiliXeY(create considerandoXi ,1i6come se fossero occorrenze di una variabile unica, e lo stesso perYi ) avrebbero tutte unamedia0. Al contrario, se costruiamo prima due variabiliX,Y(create considerando laXX1*=X1-X1¯,...,X6*=X6-X6¯,Y1*=Y1-Y1¯,...,Y6*=Y6-Y6¯SEX*Y*Xio*,1io6Yio*0X,Y come se fossero occorrenze di una variabile unica, e lo stesso per Y i ), quindi sottrarre la media (e anche dividendo per SE di X e Y ) non cambierebbe le cose.Xio,1io6YioXY

MODIFICA 01/01/18

Permettetemi indico la variabile e j ( 1 j 12 ) dell'individuo. Quindi, supponiamo di avere:ioj1j12

;X1j=Y1j=10,j

;X2j=Y2j=8,j

;X3j=Y3j=6,j

;X4j=Y4j=4,j

;X5j=Y5j=2,j

.X6j=-Y6j=j,j

La correlazione in questo caso dovrebbe essere .0,5428

Se centriamo ogni variabile, dato che, per , sia X i che Y i non hanno alcuna variazione, abbiamo: X i j = Y i j = 0 . Per quanto riguarda i = 6 , otteniamo i valori X 6 j = j - 6.5 , Y j 6 = ( 13 - j ) - 6.5 = 6.5 -1io5XioYioXioj*=Yioj*=0io=6 (cioè, per le X : - 5,5 , - 4,5 , - 3,5 , - 2,5 , - 1,5 , - 0,5 , 0,5 , 1,5 , 2,5 , 3,5 , 4,5 , 5,5 e esattamente l'opposto per le Y ) . Poiché 0 = - 0 e j - 6.5 = - ( 6.5 - j ) , otteniamo: X X6j=j6.5,Yj6=(13j)6.5=6.5jX5.5,4.5,3.5,2.5,1.5,0.5,0.5,1.5,2.5,3.5,4.5,5.5Y0=0j6.5=(6.5j), implicando una correlazione di-1.Xij=Yiji,jX=Y1


Sono d'accordo con te, se seguiamo la seconda procedura. Ecco perché credo che Ruben van Bergen intendesse ciò che ho descritto nella prima procedura. In questo caso, abbiamo che: , ma c o r ( X , Y ) = c o r ( X , Y )cor(Xio,Yio)=cor(Xio*,Yio*),iocor(X,Y)=cor(X*,Y*)non è generalmente vero. Sto modificando il mio post per mostrare un contro-esempio.
Federico Tedeschi,

I valori che danno una correlazione di sono: X = 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 8 , 8 , 8 , 8 , 8 , 8 , 8 , 8 , 8 , 8 , 8 , 8 , 6 , 6 ,0,5428 ; Y = 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 10 , 8 , 8 , 8X=10,10,10,10,10,10,10,10,10,10,10,10,8,8,8,8,8,8,8,8,8,8,8,8,6,6,6,6,6,6,6,6,6,6,6,6,4,4,4,4,4,4,4,4,4,4,4,4,2,2,2,2,2,2,2,2,2,2,2,2,1,2,3,4,5,6,7,8,9,10,11,12 . Non importa se la correlazione è davvero 0,5428Y=10,10,10,10,10,10,10,10,10,10,10,8,8,8,8,8,8,8,8,8,8,8,8,6,6,6,6,6,6,6,6,6,6,6,6,4,4,4,4,4,4,4,4,4,4,4,4,2,2,2,2,2,2,2,2,2,2,2,2,12,11,10,9,8,7,6,5,4,3,2,10,5428, poiché è chiaramente diverso da . -1
Federico Tedeschi,

La correlazione tra e X = 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 , 0 ,X=0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,5.5,4.5,3.5,2.5,1.5,0.5,0.5,1.5,2.5,3.5,4.5,5.5 è - 1 . Il fatto che tu dica che X = 1 , , 12 e Y = 12 , , 1 porta a c o r ( X , Y ) = c o r ( X , Y ) = - 1 è vero, ma solo questo significa che c o r ( X iX*=0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,5.5,4.5,3.5,2.5,1.5,0.5,-0.5,-1.5,-2.5,-3.5,-4.5,-5.5-1X=1,...,12Y=12,...,1cor(X,Y)=cor(X*,Y*)=-1 , è qualcosa che ho già scritto. cor(Xio,Yio)=cor(Xio*,Yio*)
Federico Tedeschi,

Naturalmente : questa è una conseguenza dell'invarianza della correlazione con le trasformazioni lineari. Questo è qualcosa che ho già concordato nel mio primo commento, "Sono d'accordo con te. Ecco perché ho interpretato la centratura come" centrare ciascuna variabile separatamente prima di metterle insieme "." - Federico Tedeschi, 27 dic. 1717 alle 10:27cor(X;Y)=cor(X-X¯;Y-Y¯)
Federico Tedeschi il

Forse non capisco cosa significhi "centrare ciascuna variabile separatamente prima di metterle insieme". Per me, significa X 1 - ˉ X , X 2 - ˉ X , , X n - ˉ X sta "centrando ciascuna variabile separatamente prima di metterle insieme". Potete aiutarmi a capire la nostra apparente diversa comprensione? X-X¯X1-X¯,X2-X¯,...,Xn-X¯
Alexis,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.