Perché una correlazione dei ranghi di Pearson è valida nonostante il presupposto della normalità?


9

Attualmente sto leggendo le ipotesi per le correlazioni di Pearson. Un presupposto importante per il conseguente test t sembra essere che entrambe le variabili provengano da distribuzioni normali; in caso contrario, viene raccomandato l'uso di misure alternative come Spearman rho. La correlazione di Spearman è calcolata come la correlazione di Pearson, usando solo i ranghi di X e Y invece di X e Y stessi, giusto?

La mia domanda è: se le variabili di input in una correlazione di Pearson devono essere normalmente distribuite, perché il calcolo di una correlazione di Spearman è valido anche se le variabili di input sono gradi? I miei ranghi certamente non provengono da normali distribuzioni ...

L'unica spiegazione che ho trovato finora è che il significato di Rho potrebbe essere testato diversamente da quello del test di correlazione di Pearson (in un modo che non richiede la normalità), ma finora non ho trovato alcuna formula. Tuttavia, quando ho eseguito alcuni esempi, i valori p per rho e per il test t della correlazione dei ranghi di Pearson sono sempre risultati corrispondenti, salvo per le ultime cifre. Per me questo non sembra una procedura profondamente diversa.

Eventuali spiegazioni e idee che potresti avere sarebbero apprezzate!

Risposte:


7

La normalità non è richiesta per calcolare una correlazione di Pearson; è solo che alcune forme di inferenza sulla quantità di popolazione corrispondente si basano su ipotesi normali (IC e test di ipotesi).

Se non hai la normalità, le proprietà implicite di quella particolare forma di inferenza non valgono.

Nel caso della correlazione di Spearman, non hai la normalità, ma va bene perché i calcoli di inferenza per la correlazione di Spearman (come il test di ipotesi) non sono basati su un presupposto di normalità.

Sono derivati ​​in base al fatto di essere un insieme di gradi accoppiati da una distribuzione bivariata continua; in questo caso il test di ipotesi utilizza la distribuzione della permutazione della statistica del test in base ai gradi.

Quando valgono le solite ipotesi di inferenza con la correlazione di Pearson (normalità bivariata), la correlazione di Spearman è di solito molto stretta (sebbene in media un po 'più vicina a 0).

(Quindi quando potresti usare Pearson, lo Spearman spesso fa abbastanza bene. Se avessi quasi bivariato i dati normali oltre a una contaminazione con qualche altro processo (che ha causato valori anomali), lo Spearman sarebbe un modo più robusto per stimare la correlazione in la distribuzione incontaminata.)


Grazie, il riferimento alla distribuzione della permutazione è utile!
GST95,

"lo Spearman sarebbe un modo più robusto per stimare la correlazione" A nitpick, Spearman stimerebbe l' associazione , NON la correlazione lineare.
Landroni,

1
@landroni Se stavo parlando dello Spearman in generale, tu descrivi correttamente ciò che fa lo Spearman - ma in quella frase sto esplicitamente parlando del confronto tra due stime della correlazione della popolazione sotto contaminazione, e intendo quello che dico lì letteralmente. Immaginate un bivariata normale con correlazione e quindi aggiungere un outlier davvero estremo. Se voglio stimare in quella situazione, lo Spearman è uno stimatore più robusto di rispetto alla correlazione di Pearson. ρ ρρρρ
Glen_b -Restate Monica

1
@landroni ... Una situazione del genere può verificarsi in cui si ha il processo principale che si comporta bene e un processo di contaminazione che può essere molto estremo ma si verifica solo occasionalmente. Se sei interessato a stimare la correlazione del processo non contaminato, la correlazione di Pearson è molto suscettibile alla contaminazione, in misura molto maggiore rispetto a Spearman.
Glen_b -Restate Monica

2

quando ho eseguito alcuni esempi, i valori p per rho e per il test t della correlazione dei ranghi di Pearson sono sempre stati abbinati, salvo per le ultime cifre

Bene, allora hai fatto degli esempi sbagliati!

a = c(1,2,3,4,5,6,7,8,9)
b = c(1,2,3,4,5,6,7,8,90)
cor.test(a,b,method='pearson')

    Pearson's product-moment correlation

data:  a and b
t = 2.0528, df = 7, p-value = 0.0792
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.08621009  0.90762506
sample estimates:
      cor 
0.6130088 

cor.test(a,b,method='spearman')

    Spearman's rank correlation rho

data:  a and b
S = 0, p-value = 5.511e-06
alternative hypothesis: true rho is not equal to 0
sample estimates:
rho 
  1 

Vettori ae bhanno una buona, ma lungi dall'essere perfetto lineare (Pearson) correlazione. Tuttavia, hanno una perfetta correlazione tra gradi. See - al di Spearman , in questo caso, non importa se l'ultima cifra del è 8.1, 9, 90 o 9000 (! Provare), importa solo se è maggiore di 8 . Ecco cosa fa la differenza tra i ranghi correlati. ρb

Viceversa, mentre ae bhanno correlazione di rango perfetta, loro coefficiente di correlazione di Pearson è minore di 1. Questo dimostra che la correlazione Pearson non sta riflettendo ranghi.
Una correlazione di Pearson riflette una funzione lineare, una correlazione di rango semplicemente una funzione monotona. Nel caso dei dati normali, i due si assomigliano fortemente, e sospetto che questo sia il motivo per cui i tuoi dati non mostrano grandi differenze tra Spearman e Pearson.

Per un esempio pratico, considerare quanto segue; vuoi vedere se le persone più alte pesano di più. Sì, è una domanda sciocca ... ma supponi che questo sia ciò che ti interessa. Ora, la massa non si ridimensiona linearmente con il peso, poiché anche le persone alte sono più larghe delle persone piccole; quindi il peso non è una funzione lineare dell'altezza. Qualcuno che è il 10% più alto di te è (in media) più del 10% più pesante. Questo è il motivo per cui l'indice corpo / massa utilizza il cubo nel denominatore.
Di conseguenza, assumeresti una correlazione lineare per riflettere in modo impreciso la relazione altezza / peso. Al contrario, la correlazione tra gradi è insensibile alle fastidiose leggi della fisica e della biologia in questo caso; non riflette se le persone diventano più pesanti linearmente man mano che aumentano in altezza, riflette semplicemente se le persone più alte (più alte di rango su una scala) sono più pesanti (più alte di rango sull'altra scala).

Un esempio più tipico potrebbe essere quello delle classifiche di questionari simili a quelle di Likert, come le persone che valutano qualcosa come "perfetto / buono / decente / mediocre / cattivo / terribile". "perfetto" è tutt'altro che "decente" come "decente" è da "cattivo" sulla scala , ma possiamo davvero dire che la distanza tra i due è la stessa? Una correlazione lineare non è necessariamente appropriata. La correlazione tra gradi è più naturale.

Per rispondere più direttamente alla tua domanda: no, i valori p per le correlazioni di Pearson e Spearman non devono essere calcolati in modo diverso . Molto è diverso nei due, sia concettualmente che numericamente, ma se la statistica del test è equivalente, il valore p sarà equivalente.

Sulla questione di un'ipotesi di normalità nella correlazione di Pearson, vedi questo .
Più in generale, altre persone hanno elaborato molto meglio di quanto potessi riguardo all'argomento delle correlazioni parametriche rispetto a quelle non parametriche (vedi anche qui ), e cosa questo significhi riguardo alle ipotesi distributive.


Grazie! La prossima volta sarò sicuro di sperimentare di più con gli esempi. :)
GST95

1
No, aspetta, in realtà non era la mia domanda. Non ho confrontato il metodo = "pearson" con la versione method = "spearman" di xey. Ho confrontato cor.test(x, y, method = "spearman")con cor.test(rank(x), rank(y), method = "pearson"). Queste stime saranno identiche, indipendentemente dai dati scelti. Grazie comunque! :)
GST95,

@ GST95, la correlazione di Spearman è esattamente la correlazione di Pearson eseguita su dati trasformati in gradi. I tuoi due "metodi" sono esattamente lo stesso metodo.
Dennis,

@Dennis, esattamente, non stavo confrontando i coefficienti rho (identici) ma i valori p per vedere se entrambi fossero stati ottenuti con un test t.
GST95,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.