Il coefficiente di Pearson tra due variabili è piuttosto elevato (r = .65). Ma quando classifico i valori delle variabili ed eseguo una correlazione di Spearman, il valore del cliente è molto più basso (r = .30).
- Qual è l'interpretazione di questo?
Il coefficiente di Pearson tra due variabili è piuttosto elevato (r = .65). Ma quando classifico i valori delle variabili ed eseguo una correlazione di Spearman, il valore del cliente è molto più basso (r = .30).
Risposte:
Se i tuoi dati sono normalmente distribuiti o distribuiti uniformemente, penso che la correlazione di Spearman e Pearson dovrebbe essere abbastanza simile.
Se stanno dando risultati molto diversi come nel tuo caso (.65 contro .30), la mia ipotesi è che tu abbia dati distorti o valori anomali e che i valori erratici stiano portando la correlazione di Pearson ad essere maggiore della correlazione di Spearman. Vale a dire, valori molto alti su X potrebbero coesistere con valori molto alti su Y.
Vedi anche queste domande precedenti sulle differenze tra la correlazione di Spearman e Pearson:
Quella che segue è una semplice simulazione di come ciò potrebbe accadere. Si noti che il caso seguente riguarda un singolo valore anomalo, ma che è possibile produrre effetti simili con più valori anomali o dati distorti.
# Set Seed of random number generator
set.seed(4444)
# Generate random data
# First, create some normally distributed correlated data
x1 <- rnorm(200)
y1 <- rnorm(200) + .6 * x1
# Second, add a major outlier
x2 <- c(x1, 14)
y2 <- c(y1, 14)
# Plot both data sets
par(mfrow=c(2,2))
plot(x1, y1, main="Raw no outlier")
plot(x2, y2, main="Raw with outlier")
plot(rank(x1), rank(y1), main="Rank no outlier")
plot(rank(x2), rank(y2), main="Rank with outlier")
# Calculate correlations on both datasets
round(cor(x1, y1, method="pearson"), 2)
round(cor(x1, y1, method="spearman"), 2)
round(cor(x2, y2, method="pearson"), 2)
round(cor(x2, y2, method="spearman"), 2)
Il che dà questo risultato
[1] 0.44
[1] 0.44
[1] 0.7
[1] 0.44
L'analisi di correlazione mostra che senza il valore anomalo Spearman e Pearson sono abbastanza simili, e con il valore anomalo piuttosto estremo, la correlazione è piuttosto diversa.
La trama seguente mostra come il trattamento dei dati come ranghi rimuove l'estrema influenza del valore anomalo, portando così Spearman ad essere simile sia con che senza valore anomalo, mentre Pearson è abbastanza diverso quando viene aggiunto il valore erratico. Ciò evidenzia perché Spearman è spesso definito robusto.