Come faccio a sapere quando scegliere tra Spearman's e Pearson's ? La mia variabile include soddisfazione e i punteggi sono stati interpretati usando la somma dei punteggi. Tuttavia, questi punteggi potrebbero anche essere classificati.r
Come faccio a sapere quando scegliere tra Spearman's e Pearson's ? La mia variabile include soddisfazione e i punteggi sono stati interpretati usando la somma dei punteggi. Tuttavia, questi punteggi potrebbero anche essere classificati.r
Risposte:
Se vuoi esplorare i tuoi dati, è meglio calcolare entrambi, poiché la relazione tra le correlazioni di Spearman (S) e Pearson (P) fornirà alcune informazioni. In breve, S è calcolato su gradi e quindi descrive relazioni monotoniche mentre P è su valori reali e descrive relazioni lineari.
Ad esempio, se imposti:
x=(1:100);
y=exp(x); % then,
corr(x,y,'type','Spearman'); % will equal 1, and
corr(x,y,'type','Pearson'); % will be about equal to 0.25
Questo perché aumenta monotonicamente con quindi la correlazione di Spearman è perfetta, ma non linearmente, quindi la correlazione di Pearson è imperfetta. x
corr(x,log(y),'type','Pearson'); % will equal 1
Fare entrambe le cose è interessante perché se hai S> P, ciò significa che hai una correlazione che è monotona ma non lineare. Dal momento che è buono avere linearità nelle statistiche (è più facile) puoi provare ad applicare una trasformazione su (tale registro).
Spero che ciò aiuti a rendere più comprensibili le differenze tra i tipi di correlazioni.
La risposta più breve e per lo più corretta è:
Pearson confronta la relazione lineare , Spearman confronta la relazione monotonica (alcuni casi infiniti più generali, ma per un certo compromesso di potenza).
Quindi se supponi / pensi che la relazione sia lineare (o, in un caso speciale, che quelle siano due misure della stessa cosa, quindi la relazione è ) e la situazione non è troppo noiosa (controlla altre risposte per i dettagli), vai con Pearson. Altrimenti usa Spearman.
Ciò accade spesso nelle statistiche: esistono vari metodi che potrebbero essere applicati nella tua situazione e non sai quale scegliere. Dovresti basare la tua decisione sui pro e contro dei metodi in esame e le specifiche del tuo problema, ma anche in questo caso la decisione è generalmente soggettiva senza una risposta "corretta" concordata. Di solito è una buona idea provare tutti i metodi che sembrano ragionevoli e che la tua pazienza permetterà e vedrà quali ti daranno i migliori risultati alla fine.
La differenza tra la correlazione di Pearson e la correlazione di Spearman è che Pearson è più appropriato per le misurazioni prese da una scala di intervallo , mentre Spearman è più appropriato per le misurazioni prese da scale ordinali . Esempi di scale di intervallo includono "temperatura in Farenheit" e "lunghezza in pollici", in cui le singole unità (1 ° F, 1 in) sono significative. Cose come "punteggi di soddisfazione" tendono al tipo ordinale poiché mentre è chiaro che "5 felicità" è più felice di "3 felicità", non è chiaro se si possa dare un'interpretazione significativa di "1 unità di felicità". Ma quando sommi molte misurazioni del tipo ordinale, che è quello che hai nel tuo caso, finisci con una misurazione che in realtà non è né ordinale né intervallo, ed è difficile da interpretare.
Ti consiglierei di convertire i tuoi punteggi di soddisfazione in punteggi quantili e di lavorare con le somme di questi, poiché questo ti darà dati che sono un po 'più suscettibili di interpretazione. Ma anche in questo caso non è chiaro se Pearson o Spearman sarebbero più appropriati.
Ho incontrato un caso d'angolo interessante oggi.
Se stiamo osservando un numero molto piccolo di campioni, la differenza tra Spearman e Pearson può essere drammatica.
Nel caso seguente, i due metodi riportano una correlazione esattamente opposta .
Alcune rapide regole empiriche per decidere su Spearman vs. Pearson:
ps Ecco il codice R per riprodurre il grafico sopra:
# Script that shows that in some corner cases, the reported correlation for spearman can be
# exactly opposite to that for pearson. In this case, spearman is +0.4 and pearson is -0.4.
y = c(+2.5,-0.5, -0.8, -1)
x = c(+0.2,-3, -2.5,+0.6)
plot(y ~ x,xlim=c(-6,+6),ylim=c(-1,+2.5))
title("Correlation: corner case for Spearman vs. Pearson\nNote that they are exactly opposite each other (-0.4 vs. +0.4)")
abline(v=0)
abline(h=0)
lm1=lm(y ~ x)
abline(lm1,col="red")
spearman = cor(y,x,method="spearman")
pearson = cor(y,x,method="pearson")
legend("topleft",
c("Red line: regression.",
sprintf("Spearman: %.5f",spearman),
sprintf("Pearson: +%.5f",pearson)
))
Pur concordando con la risposta di Charles, suggerirei (a livello strettamente pratico) di calcolare entrambi i coefficienti e di esaminare le differenze. In molti casi, saranno esattamente gli stessi, quindi non devi preoccuparti.
Se, tuttavia, sono diversi, è necessario verificare se sono state soddisfatte o meno le assunzioni di Pearsons (varianza e linearità costanti) e se non vengono soddisfatte, probabilmente si sta meglio usando Spearmans.