Cosa potrebbe causare grandi differenze nel coefficiente di correlazione tra la correlazione di Pearson e Spearman per un determinato set di dati?


22

Il coefficiente di Pearson tra due variabili è piuttosto elevato (r = .65). Ma quando classifico i valori delle variabili ed eseguo una correlazione di Spearman, il valore del cliente è molto più basso (r = .30).

  • Qual è l'interpretazione di questo?

5
In genere è una buona idea mostrare un grafico a dispersione dei dati prima di interpretare un coefficiente di correlazione.
chl

Qual è la tua dimensione del campione?
Jeromy Anglim,

Risposte:


37

Perché la grande differenza

  • Se i tuoi dati sono normalmente distribuiti o distribuiti uniformemente, penso che la correlazione di Spearman e Pearson dovrebbe essere abbastanza simile.

  • Se stanno dando risultati molto diversi come nel tuo caso (.65 contro .30), la mia ipotesi è che tu abbia dati distorti o valori anomali e che i valori erratici stiano portando la correlazione di Pearson ad essere maggiore della correlazione di Spearman. Vale a dire, valori molto alti su X potrebbero coesistere con valori molto alti su Y.

  • @chl è perfetto. Il primo passo dovrebbe essere quello di guardare il diagramma a dispersione.
  • In generale, una differenza così grande tra Pearson e Spearman è una bandiera rossa che lo suggerisce
    • la correlazione di Pearson potrebbe non essere un utile sommario dell'associazione tra le tue due variabili, oppure
    • dovresti trasformare una o entrambe le variabili prima di usare la correlazione di Pearson, oppure
    • è necessario rimuovere o modificare i valori anomali prima di utilizzare la correlazione di Pearson.

domande correlate

Vedi anche queste domande precedenti sulle differenze tra la correlazione di Spearman e Pearson:

Esempio R semplice

Quella che segue è una semplice simulazione di come ciò potrebbe accadere. Si noti che il caso seguente riguarda un singolo valore anomalo, ma che è possibile produrre effetti simili con più valori anomali o dati distorti.

# Set Seed of random number generator
set.seed(4444)

# Generate random data
# First, create some normally distributed correlated data
x1 <- rnorm(200)
y1 <- rnorm(200) + .6 * x1

# Second, add a major outlier
x2 <- c(x1, 14)
y2 <- c(y1, 14)

# Plot both data sets
par(mfrow=c(2,2))
plot(x1, y1, main="Raw no outlier")
plot(x2, y2, main="Raw with outlier")

plot(rank(x1), rank(y1), main="Rank no outlier")
plot(rank(x2), rank(y2), main="Rank with outlier")

# Calculate correlations on both datasets
round(cor(x1, y1, method="pearson"), 2)
round(cor(x1, y1, method="spearman"), 2)
round(cor(x2, y2, method="pearson"), 2)
round(cor(x2, y2, method="spearman"), 2)

Il che dà questo risultato

[1] 0.44
[1] 0.44
[1] 0.7
[1] 0.44

L'analisi di correlazione mostra che senza il valore anomalo Spearman e Pearson sono abbastanza simili, e con il valore anomalo piuttosto estremo, la correlazione è piuttosto diversa.

La trama seguente mostra come il trattamento dei dati come ranghi rimuove l'estrema influenza del valore anomalo, portando così Spearman ad essere simile sia con che senza valore anomalo, mentre Pearson è abbastanza diverso quando viene aggiunto il valore erratico. Ciò evidenzia perché Spearman è spesso definito robusto.

inserisci qui la descrizione dell'immagine

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.