Cosa indica quando la correlazione di Spearman è una quantità definita inferiore a Pearson?


12

Ho un sacco di set di dati correlati. Le correlazioni di Pearson tra le coppie sono in genere decisamente più grandi delle correlazioni di Spearman. Ciò suggerisce che qualsiasi correlazione è lineare, ma ci si potrebbe aspettare che anche se Pearson e Spearman fossero gli stessi. Che cosa significa quando c'è un divario definito tra la correlazione di Pearson e Spearman e la Pearson è maggiore? Questa sembra essere una funzionalità coerente nei miei set di dati.


Domanda molto simile con un'ottima risposta qui
Colin T Bowers,

Risposte:


14

La correlazione di Spearman è solo la correlazione di Pearson che utilizza i ranghi (statistiche dell'ordine) anziché i valori numerici effettivi. La risposta alla tua domanda è che non stanno misurando la stessa cosa. Pearson: trend lineare, Spearman: trend monotonico. Il fatto che la correlazione di Pearson sia maggiore significa solo che la correlazione lineare è maggiore della correlazione di rango. Ciò è probabilmente dovuto a osservazioni influenti nelle code della distribuzione che hanno una grande influenza rispetto ai loro valori classificati. I test di associazione che utilizzano la correlazione di Pearson sono di maggiore potenza quando la linearità è contenuta nei dati.


1
Sapevo che lo spearman era solo perone nei ranghi. Ho bisogno di vedere se ci possono essere altri percorsi che potrebbero causare anche questo, ma influenti osservazioni di coda che sono più linearmente correlate rispetto alla maggior parte dei dati, ma che perdono la loro influenza quando sostituite con le loro classifiche causerebbero sicuramente ciò che sono vedendo.
John Robertson,

0

La correlazione di Pearson presuppone che siano precisi diversi presupposti: 1) Ogni variabile è normalmente distribuita; 2) Homoscedasticity, la varianza di ogni variabile rimane costante; e 3) Linearità, nel senso che un diagramma a dispersione che rappresenta la relazione mostra punti dati raggruppati simmetricamente attorno alla linea di regressione.

La correlazione di Spearman è un'alternativa non parametrica a quella di Pearson in base al grado delle osservazioni. La correlazione di Spearman consente di allentare tutte e tre le ipotesi sul set di dati e ricavare correlazioni che sono ancora ragionevolmente accurate.

Ciò che i tuoi dati implicano è che probabilmente rompe materialmente una o più delle ipotesi menzionate materialmente in modo che le due correlazioni differiscano significativamente.

Dato che esiste un ampio divario tra le due correlazioni, è necessario verificare se le variabili del set di dati sono normalmente distribuite, omoscedastiche e lineari all'interno di un diagramma a dispersione.

L'indagine di cui sopra faciliterà la tua decisione se il coefficiente di correlazione di Spearman o Pearson è il più rappresentativo.


2
t

4
Non corretto. Inferenza sulla correlazione di Pearson non richiede che nessuna di queste ipotesi sia valida. Si potrebbe avere una relazione curvilinea con dati eteroscedastici e non normali e il test della correlazione di Pearson (che equivale all'inferenza su un modello di regressione lineare) è alimentato per rilevare la tendenza del primo ordine. L'interpretazione della correlazione di Pearson come forza della tendenza del primo ordine è ancora valida. Ci sono alcune circostanze in cui la tendenza del primo ordine misurata dalla correlazione di Pearson non è adeguata per un'analisi.
AdamO,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.