Come scegliere tra la correlazione di Pearson e Spearman?


119

Come faccio a sapere quando scegliere tra Spearman's e Pearson's ? La mia variabile include soddisfazione e i punteggi sono stati interpretati usando la somma dei punteggi. Tuttavia, questi punteggi potrebbero anche essere classificati.rρr


2
vedi anche questa domanda su Pearson contro Spearman per dati non normali stats.stackexchange.com/questions/3730/…
Jeromy Anglim

1
in caso di dati normali, produrre Pearson. in caso di dati non normali, produrre spearman.

Risposte:


137

Se vuoi esplorare i tuoi dati, è meglio calcolare entrambi, poiché la relazione tra le correlazioni di Spearman (S) e Pearson (P) fornirà alcune informazioni. In breve, S è calcolato su gradi e quindi descrive relazioni monotoniche mentre P è su valori reali e descrive relazioni lineari.

Ad esempio, se imposti:

x=(1:100);  
y=exp(x);                         % then,
corr(x,y,'type','Spearman');      % will equal 1, and 
corr(x,y,'type','Pearson');       % will be about equal to 0.25

Questo perché aumenta monotonicamente con quindi la correlazione di Spearman è perfetta, ma non linearmente, quindi la correlazione di Pearson è imperfetta. xyx

corr(x,log(y),'type','Pearson');  % will equal 1

Fare entrambe le cose è interessante perché se hai S> P, ciò significa che hai una correlazione che è monotona ma non lineare. Dal momento che è buono avere linearità nelle statistiche (è più facile) puoi provare ad applicare una trasformazione su (tale registro).y

Spero che ciò aiuti a rendere più comprensibili le differenze tra i tipi di correlazioni.


2
Immagino che questo sia un dato di ciò che hai già detto, ma voglio solo confermare che non è possibile che S <P si verifichi.
Jonathan Thiele,

9
@JonathanThiele è perfettamente possibile avere S <P. Ad esempio, gli insiemi II e IV dei Quartetti di Anscombe dimostrano questo comportamento. Inoltre, vedi questa domanda: stats.stackexchange.com/questions/27127/…
atomicules

1
@atomicules Grazie per l'informazione. Ho appena verificato le correlazioni nel Quartetto di Anscombe e il tuo link è stato utile.
Jonathan Thiele,

Come è possibile includere le correlazioni di Pearson e Spearson in una presentazione del corrgram? - - Sto pensando qui il caso stackoverflow.com/a/40523080/54964 - - Ho un problema multifattoriale, quindi penso che Spearson sarebbe valido da includere e non posso andare solo con Pearson.
Léo Léopold Hertz 준영

Questo è l'approccio che di solito prendo, in quanto ha l'ulteriore vantaggio di eludere scrupolosamente la giustificazione di un test rispetto a un altro, in particolare quando si verifica la correlazione tra molte variabili. Piuttosto che esaminare ogni variabile per vedere se i presupposti della correlazione di Pearson o Spearman sono soddisfatti, basta eseguire entrambi su tutto. In molte applicazioni pratiche, forniranno misure simili di significato dell'associazione, quindi devi solo scavare più a fondo nei relativamente pochi casi in cui i loro risultati differiscono notevolmente e quelli sono i casi interessanti per saperne di più su comunque.
Nuclear Wang,

50

La risposta più breve e per lo più corretta è:

Pearson confronta la relazione lineare , Spearman confronta la relazione monotonica (alcuni casi infiniti più generali, ma per un certo compromesso di potenza).

Quindi se supponi / pensi che la relazione sia lineare (o, in un caso speciale, che quelle siano due misure della stessa cosa, quindi la relazione è ) e la situazione non è troppo noiosa (controlla altre risposte per i dettagli), vai con Pearson. Altrimenti usa Spearman.y=1x+0


35

Ciò accade spesso nelle statistiche: esistono vari metodi che potrebbero essere applicati nella tua situazione e non sai quale scegliere. Dovresti basare la tua decisione sui pro e contro dei metodi in esame e le specifiche del tuo problema, ma anche in questo caso la decisione è generalmente soggettiva senza una risposta "corretta" concordata. Di solito è una buona idea provare tutti i metodi che sembrano ragionevoli e che la tua pazienza permetterà e vedrà quali ti daranno i migliori risultati alla fine.

La differenza tra la correlazione di Pearson e la correlazione di Spearman è che Pearson è più appropriato per le misurazioni prese da una scala di intervallo , mentre Spearman è più appropriato per le misurazioni prese da scale ordinali . Esempi di scale di intervallo includono "temperatura in Farenheit" e "lunghezza in pollici", in cui le singole unità (1 ° F, 1 in) sono significative. Cose come "punteggi di soddisfazione" tendono al tipo ordinale poiché mentre è chiaro che "5 felicità" è più felice di "3 felicità", non è chiaro se si possa dare un'interpretazione significativa di "1 unità di felicità". Ma quando sommi molte misurazioni del tipo ordinale, che è quello che hai nel tuo caso, finisci con una misurazione che in realtà non è né ordinale né intervallo, ed è difficile da interpretare.

Ti consiglierei di convertire i tuoi punteggi di soddisfazione in punteggi quantili e di lavorare con le somme di questi, poiché questo ti darà dati che sono un po 'più suscettibili di interpretazione. Ma anche in questo caso non è chiaro se Pearson o Spearman sarebbero più appropriati.


2
Che ne dici, ad esempio, dell'apprensione comunicativa? Un'apprensione alta non ha differenze definite con un'apprensione molto alta, giusto? Ma ho visto che la variabile è stata correlata con altre variabili usando r di Pearson. Va tutto bene? Grazie!

28

Ho incontrato un caso d'angolo interessante oggi.

Se stiamo osservando un numero molto piccolo di campioni, la differenza tra Spearman e Pearson può essere drammatica.

Nel caso seguente, i due metodi riportano una correlazione esattamente opposta .

inserisci qui la descrizione dell'immagine

Alcune rapide regole empiriche per decidere su Spearman vs. Pearson:

  • Le ipotesi di Pearsons sono varianza e linearità costanti (o qualcosa di ragionevolmente simile a quello) e, se non vengono soddisfatte, potrebbe valere la pena provare Spearmans.
  • L'esempio sopra è un caso d'angolo che si apre solo se c'è una manciata (<5) di punti dati. Se ci sono> 100 punti dati e i dati sono lineari o vicini ad esso, Pearson sarà molto simile a Spearman.
  • Se ritieni che la regressione lineare sia un metodo adatto per analizzare i tuoi dati, l'output di Pearsons corrisponderà al segno e all'entità di una pendenza di regressione lineare (se le variabili sono standardizzate).
  • Se i tuoi dati hanno alcuni componenti non lineari che la regressione lineare non rileva, quindi prima prova a raddrizzare i dati in una forma lineare applicando una trasformazione (forse log e). Se ciò non funziona, allora Spearman potrebbe essere appropriato.
  • Provo sempre per primo quello di Pearson, e se non funziona, allora provo Spearman.
  • Puoi aggiungere altre regole pratiche o correggere quelle che ho appena dedotto? Ho trasformato questa domanda in un Wiki della community in modo che tu possa farlo.

ps Ecco il codice R per riprodurre il grafico sopra:

# Script that shows that in some corner cases, the reported correlation for spearman can be
# exactly opposite to that for pearson. In this case, spearman is +0.4 and pearson is -0.4.
y = c(+2.5,-0.5, -0.8, -1)
x = c(+0.2,-3,   -2.5,+0.6)

plot(y ~ x,xlim=c(-6,+6),ylim=c(-1,+2.5))
title("Correlation: corner case for Spearman vs. Pearson\nNote that they are exactly opposite each other (-0.4 vs. +0.4)")
abline(v=0)
abline(h=0)
lm1=lm(y ~ x)
abline(lm1,col="red")

spearman = cor(y,x,method="spearman")
pearson = cor(y,x,method="pearson")
legend("topleft",
    c("Red line: regression.",
    sprintf("Spearman: %.5f",spearman),
    sprintf("Pearson:   +%.5f",pearson)
))

7

Pur concordando con la risposta di Charles, suggerirei (a livello strettamente pratico) di calcolare entrambi i coefficienti e di esaminare le differenze. In molti casi, saranno esattamente gli stessi, quindi non devi preoccuparti.

Se, tuttavia, sono diversi, è necessario verificare se sono state soddisfatte o meno le assunzioni di Pearsons (varianza e linearità costanti) e se non vengono soddisfatte, probabilmente si sta meglio usando Spearmans.


3
come studente di macchine non sono certamente un santo per quanto riguarda la correttezza statistica, ma controllare le ipotesi DOPO aver eseguito il test mi sembra un'eresia.
Steffen,

7
@steffen Penso che vada bene. Un presupposto di regressione è che i residui sono normalmente distribuiti. Come lo verificheresti prima di eseguire la regressione?
Glen,

1
@Glen: in questo caso non posso. Ma quando confronto la qualità di diversi modelli, generalmente preferisco verificare il presupposto (ad esempio approssimativamente distribuito normalmente) prima di eseguire il test per ridurre la tendenza a rilassare i presupposti a favore di determinati risultati del test. Chiamalo prevenzione di un trucco mentale. Immagino che sia solo io;).
Steffen,

1
@ steffen: hai ragione sull'eresia, ma se le due procedure danno gli stessi risultati, allora è una questione di gusti che usare, ma se non controllano le ipotesi e dove falliscono spesso possono fornire utili informazioni sui dati. Personalmente, utilizzo Spearman ove possibile, ma questa non è una pratica comune nel mio campo.
richiemorrisroe,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.