Correlazione di Pearson o Spearman con dati non normali


113

Ricevo questa domanda abbastanza frequentemente nel mio lavoro di consulenza statistica, che ho pensato di pubblicarla qui. Ho una risposta, che è pubblicata di seguito, ma ero desideroso di sentire ciò che gli altri hanno da dire.

Domanda: se hai due variabili che non sono normalmente distribuite, dovresti usare il rho di Spearman per la correlazione?


1
Perché non calcolo e la segnalazione sia (r di Pearson e ρ di Spearman)? La loro differenza (o mancanza) fornirà ulteriori informazioni.

Una domanda che confronta le ipotesi distributive fatte quando testiamo la significatività di un semplice coefficiente di regressione beta e quando testiamo il coefficiente di correlazione di Pearson (numericamente equivalente alla beta) stats.stackexchange.com/q/181043/3277 .
ttnphns,

Risposte:


77

La correlazione di Pearson è una misura della relazione lineare tra due variabili casuali continue. Non assume la normalità anche se assume varianze finite e covarianza finita. Quando le variabili sono normali bivariate, la correlazione di Pearson fornisce una descrizione completa dell'associazione.

La correlazione di Spearman si applica ai ranghi e quindi fornisce una misura di una relazione monotonica tra due variabili casuali continue. È anche utile con i dati ordinali ed è robusto per i valori anomali (a differenza della correlazione di Pearson).

La distribuzione di entrambi i coefficienti di correlazione dipenderà dalla distribuzione sottostante, sebbene entrambi siano asintoticamente normali a causa del teorema del limite centrale.


12
La di Pearson non assume la normalità, ma è solo una misura esaustiva dell'associazione se la distribuzione articolare è normale multivariata. Data la confusione che questa distinzione suscita, potresti volerlo aggiungere alla tua risposta. ρ
user603

3
Esiste una fonte che può essere citata per supportare l'affermazione di cui sopra (la persona r non assume la normalità)? Al momento abbiamo lo stesso argomento nel nostro dipartimento.

5
"Quando le variabili sono normali bivariate, la correlazione di Pearson fornisce una descrizione completa dell'associazione." E quando le variabili NON sono normali bivariate, quanto è utile la correlazione di Pearson?
Landroni,

2
Questa risposta sembra piuttosto indiretta. "Quando le variabili sono normali bivariate ..." E quando no? Questo tipo di spiegazione è il motivo per cui non ottengo mai statistiche. "Rob, come ti piace il mio vestito nuovo?" "Il colore scuro sottolinea la tua pelle chiara." "Certo, Rob, ma ti piace come enfatizzi la mia pelle?" "La pelle chiara è considerata bella in molte culture." "Lo so, Rob, ma ti piace?" "Penso che l'abito sia bellissimo." "Lo penso anche io, Rob, ma è bello per me ?" "Sei sempre bellissima per me, tesoro." sospiro

1
Se leggi prima le due frasi, troverai la risposta.
Rob Hyndman,

49

Non dimenticare la tau di Kendall ! Roger Newson ha sostenuto per la superiorità della Kendall τ un corso di Spearman correlazione R S come misura di rango a base di correlazione in un documento il cui testo completo è ora liberamente disponibile on-line:

Newson R. Parametri dietro statistiche "non parametriche": tau di Kendall, D di Somers e differenze mediane . Stata Journal 2002; 2 (1): 45-64.

Egli fa riferimento (su p47) Kendall & Gibbons (1990) a sostenere che" ... gli intervalli di confidenza per di Spearman R S sono meno affidabili e meno interpretabile di intervalli di confidenza per di Kendall T si -parametri, ma il campione di Spearman r S è molto più facilmente calcolato senza un computer "(che ovviamente non ha più molta importanza). Sfortunatamente non ho un facile accesso a una copia del loro libro:

Kendall, MG e JD Gibbons. 1990. Metodi di correlazione dei ranghi . 5a ed. Londra: Griffin.


2
Sono anche un grande fan della tau di Kendall. Pearson è troppo sensibile ai punti / outlier influenti per i miei gusti, e mentre Spearman non soffre di questo problema, personalmente trovo Kendall più facile da capire, interpretare e spiegare di Spearman. Naturalmente, il tuo chilometraggio può variare.
Stephan Kolassa,

Il mio ricordo per esperienza è che la tau di Kendall funziona ancora molto più lentamente (in R) di quella di Spearman. Questo può essere importante se il tuo set di dati è grande.
parole per

35

Da una prospettiva applicata, sono più interessato a scegliere un approccio che sintetizzi la relazione tra due variabili in un modo che si allinea alla mia domanda di ricerca. Penso che determinare un metodo per ottenere errori standard e valori p accurati sia una domanda che dovrebbe venire seconda. Anche se hai scelto di non fare affidamento sugli asintotici, c'è sempre la possibilità di avviare il bootstrap o modificare i presupposti distributivi.

Come regola generale, preferisco la correlazione di Pearson perché (a) generalmente si allinea maggiormente con i miei interessi teorici; (b) consente una comparabilità più diretta dei risultati tra gli studi, poiché la maggior parte degli studi nella mia zona riporta la correlazione di Pearson; e (c) in molte impostazioni esiste una differenza minima tra i coefficienti di correlazione di Pearson e Spearman.

Tuttavia, ci sono situazioni in cui penso che la correlazione di Pearson su variabili grezze sia fuorviante.

  • Valori erratici: i valori anomali possono avere una grande influenza sulle correlazioni di Pearson. Molti valori anomali nelle impostazioni applicate riflettono errori di misurazione o altri fattori che il modello non intende generalizzare. Un'opzione è rimuovere tali valori anomali. Gli outlier univariati non esistono con il rho di Spearman perché tutto viene convertito in gradi. Pertanto, Spearman è più robusto.
  • Variabili altamente distorte: quando si correlano variabili distorte, in particolare variabili altamente distorte, un registro o qualche altra trasformazione spesso rende più chiara la relazione di base tra le due variabili (ad esempio, le dimensioni del cervello in base al peso corporeo degli animali). In tali contesti può essere che la metrica non sia comunque la metrica più significativa. Il rho di Spearman ha un effetto simile alla trasformazione convertendo entrambe le variabili in gradi. Da questa prospettiva, il rho di Spearman può essere visto come un approccio rapido e sporco (o più positivamente, è meno soggettivo) per cui non devi pensare a trasformazioni ottimali.

In entrambi i casi sopra, consiglierei ai ricercatori di considerare le strategie di aggiustamento (ad es. Trasformazioni, rimozione / aggiustamento anomalo) prima di applicare la correlazione di Pearson o di usare il rho di Spearman.


Il problema con la trasformazione è che, in generale, trasforma anche gli errori associati a ciascun punto, e quindi il peso. E non risolve il problema del valore erratico.
skan

11

aggiornato

La domanda ci chiede di scegliere tra il metodo di Pearson e quello di Spearman quando si mette in discussione la normalità . Limitato a questa preoccupazione, penso che il seguente documento dovrebbe informare la decisione di chiunque:

r

r

Se viene chiesto di scegliere tra uno di Spearman e Pearson quando viene violata la normalità, vale la pena sostenere l'alternativa gratuita per la distribuzione, ovvero il metodo di Spearman.


In precedenza ..

La correlazione di Spearman è una misura di correlazione basata sul rango; è non parametrico e non poggia su un'ipotesi di normalità.

La distribuzione campionaria per la correlazione di Pearson assume la normalità; in particolare ciò significa che sebbene sia possibile calcolarlo, le conclusioni basate sui test di significatività potrebbero non essere valide.

Come Rob sottolinea nei commenti, con un grande campione questo non è un problema. Tuttavia, con piccoli campioni, in cui viene violata la normalità, dovrebbe essere preferita la correlazione di Spearman.

Aggiornamento Rimuginando sui commenti e sulle risposte, mi sembra che ciò si riduca al solito dibattito tra test non parametrici e parametrici. Gran parte della letteratura, ad esempio in biostatistica, non tratta campioni di grandi dimensioni. In genere non sono sprezzante nel fare affidamento sugli asintotici. Forse è giustificato in questo caso, ma questo non è prontamente evidente per me.


1
No. La correlazione di Pearson NON assume la normalità. È una stima della correlazione tra due variabili casuali continue ed è uno stimatore coerente in condizioni relativamente generali. Anche i test basati sulla correlazione di Pearson non richiedono la normalità se i campioni sono abbastanza grandi a causa del CLT.
Rob Hyndman,

2
Ho l'impressione che Pearson sia definito purché le distribuzioni sottostanti abbiano varianze e covarianze finite. Quindi, la normalità non è richiesta. Se le distribuzioni sottostanti non sono normali, la statistica del test può avere una distribuzione diversa ma questo è un problema secondario e non pertinente alla domanda in corso. Non è così?

2
@Rob: Sì, possiamo sempre trovare soluzioni alternative per far funzionare le cose più o meno allo stesso modo. Semplicemente per evitare il metodo di Spearman, che la maggior parte dei non statistici può gestire con un comando standard. Immagino che il mio consiglio resti di usare il metodo di Spearman per piccoli campioni in cui la normalità è discutibile. Non sono sicuro che sia in discussione qui o no.
ars

1
@ars. Userei Spearman se fossi interessato all'associazione monotonica piuttosto che lineare, o se ci fossero valori anomali o alti livelli di asimmetria. Vorrei usare Pearson per relazioni lineari a condizione che non ci siano valori anomali. Non credo che la dimensione del campione sia rilevante nel fare la scelta.
Rob Hyndman,

3
@Rob: OK, grazie per la discussione. Concordo con la prima parte, ma dubito dell'ultima, e includerei che la dimensione gioca solo un ruolo perché non si applicano i normali asintotici. Ad esempio, Kowalski 1972 ha una buona indagine sulla storia attorno a questo, e conclude che la correlazione di Pearson non è robusta come il pensiero. Vedi: jstor.org/pss/2346598
ars
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.