Perché è parametrico Pearson e Spearman non parametrico


19

Apparentemente il coefficiente di correlazione di Pearson è parametrico e il rho di Spearman non è parametrico.

Sto avendo problemi a capirlo. A quanto ho capito, Pearson è calcolato come e Spearman sono calcolati allo stesso modo, tranne che sostituiamo tutti i valori con i loro ranghi.

rxy=cov(X,Y)σxσy

Dice Wikipedia

La differenza tra modello parametrico e modello non parametrico è che il primo ha un numero fisso di parametri, mentre il secondo aumenta il numero di parametri con la quantità di dati di allenamento.

Ma non vedo alcun parametro tranne i campioni stessi. Alcuni sostengono che i test parametrici assumano distribuzioni normali e continuano dicendo che Pearson assume i normali dati distribuiti, ma non riesco a capire perché Pearson lo richiederebbe.

Quindi la mia domanda è: cosa significano parametrico e non parametrico nel contesto della statistica? E come si inseriscono Pearson e Spearman?


6
È una buona domanda e c'è un sacco di disinformazione là fuori. Ad esempio, l'equazione dei test parametrici e l'assunzione di distribuzioni normali è purtroppo una frequente confusione, per cui molti scrittori di libri di testo, insegnanti di corsi e poster di Internet copiano da altri che sono come o più confusi.
Nick Cox,

5
Forse la risoluzione positiva più semplice della domanda è questa: sì, la correlazione di Spearman è un parametro da stimare quantificando la forza di una relazione e quindi assomiglia a Pearson (alla radice, è la stessa idea, come fai notare); ma no, la correlazione di Spearman non è un parametro presente in una distribuzione, mentre quella di Pearson è un parametro in una distribuzione normale bivariata (un'interpretazione storica ma ora minimizzata di ciò che stai facendo quando fai correlazione). È una bella distinzione, da capire vedendo che la parola "parametro" ha più sensi.
Nick Cox,

@NickCox, perché non lo pubblichi come una risposta.
Richard Hardy,

5
Il punto sulla normalità della distribuzione morde davvero solo quando si desidera eseguire test di significatività con correlazione. Se si utilizzano le correlazioni solo come misure descrittive, la non normalità non deve costituire un ostacolo all'utilizzo delle correlazioni. Le correlazioni possono anche essere un po 'utili con due variabili binarie purché entrambe possano variare. Devi ancora fare attenzione agli effetti dei valori anomali, ecc., Ecc.
Nick Cox,

1
Dal momento che sembra che non sia stato ancora detto chiaramente, vorrei sottolineare che nessuna statistica è "parametrica". È come dire che i numeri sono gustosi: l'aggettivo semplicemente non si applica al nome. I modelli statistici possono essere parametrici (come indicato dalla citazione di Wikipedia), nonché i test e le procedure che si basano su di essi. Le statistiche di Spearman e Pearson possono essere utilizzate sia in impostazioni parametriche che non parametriche. Maggiori informazioni su stats.stackexchange.com/questions/67204 . Ciò che rende parametrico un modello è il suo spazio degli stati .
whuber

Risposte:


17

Il problema è che al giorno d'oggi "non parametrico" ha due significati distinti. La definizione in Wikipedia si applica a cose come l'adattamento di curve non parametriche, ad esempio tramite spline o regressione locale. L'altro significato, che è più vecchio, è più lungo le linee di "senza distribuzione" - cioè, tecniche che possono essere applicate indipendentemente dalla distribuzione presunta dei dati. Quest'ultimo è quello che si applica al rho di Spearman, poiché la trasformazione dei ranghi implica che darà lo stesso risultato indipendentemente dalla distribuzione originale.


2
Non parametrico ha due significati, ma il commento su Wikipedia si applica davvero ad entrambi. Nella regressione non parametrica si riferisce alla relazione non parametrica finita. Nella parte "libera dalla distribuzione" delle cose si riferisce a modelli distributivi che non sono parametrici finiti.
Glen_b

1
Hm, questa è la citazione da Wikipedia non sono io. Qualcun altro l'ha aggiunto.
Hong Ooi,

2
La modifica principale - che ritengo errata in un dettaglio e non aggiunge nulla di particolarmente utile - è stata sottoposta a revisione dal momento che è stata fatta da un utente low = rep, ed è stata rifiutata da una persona, ma è stata accettata automaticamente quando una terza persona ha provato a modificarlo per migliorarlo (potrebbe non aver capito che questa sarebbe una conseguenza). Riporterò quella modifica sul tuo originale. Puoi farlo ogni volta che c'è una modifica che non ti piace.
Glen_b -Restate Monica

Ora è tornato al tuo post originale, dal momento che penso che abbia cambiato troppo il tuo post senza cercare il tuo consenso e non sembra che tu sia d'accordo. Se c'era qualcosa che ti piaceva, fai clic sul link "modificato ... fa" sopra il mio nome e copia le parti che ti piacciono da quello che c'era prima, quindi modificale e incollalo.
Glen_b -Reinstate Monica

Quando è giustificato utilizzare Spearman? In che modo Pearson può aiutarti quando usi Spearman?
Léo Léopold Hertz

3

Penso che l'unica ragione per cui il coefficiente di correlazione di Pearson sarebbe chiamato parametrico è perché puoi usarlo per stimare i parametri della distribuzione normale multivariata. ad esempio, la distribuzione normale bivariata ha 5 parametri: due medie, due varianze e il coefficiente di correlazione. Quest'ultimo può essere stimato con il coefficiente di correlazione di Pearson.

ρ


il parametro del coefficiente di correlazione di Pearson non è nel senso che devi assumere la normalità per verificarne il significato? cioè, non assume la normalità come statistica, ma si assume che i dati siano normali quando si calcola la distribuzione del coefficiente di correlazione del campione e lo si verifica? questa è una domanda onesta, potrei sbagliarmi al 100%.
Mugen,

Puoi spiegare per favore se fai delle ipotesi di distribuzione in sperman e kendall?
Léo Léopold Hertz

@mugen non devi assumere la normalità per testare il significato di una correlazione di Pearson; un test comune di una correlazione di Pearson lo fa. Si potrebbe fare una diversa ipotesi parametrica e presentare un test diverso ... o in effetti, si potrebbe eseguire un test di permutazione del nulla secondo cui la correlazione di Pearson della popolazione è zero, risultando in un test non parametrico.
Glen_b

0

La risposta più semplice penso sia che il test rho di Spearmen utilizzi i dati ordinali (i numeri che possono essere classificati ma non ti dicono nulla sull'intervallo tra i numeri, ad esempio 3 gusti di gelato sono classificati 1, 2 e 3, ma questo ti dice solo quale il sapore era preferito non quanto). I dati ordinali non possono essere utilizzati nei test parametrici.

Il test r di Pearson utilizza i dati di intervallo o rapporto (numeri che hanno intervalli fissi, ad es. Secondi, kg, mm). 1mm non è solo più piccolo di 5mm ma sai esattamente quanto. questo tipo di dati può essere utilizzato in un test parametrico.


1
Certamente è possibile usare modelli parametrici - e quindi test parametrici - con dati ordinali. È sufficiente proporre una distribuzione per questa variabile con un numero finito - e fisso - di parametri e alcune ipotesi adeguate in relazione a tali parametri e voilà , esiste un test parametrico. La correlazione di Pearson calcolata in situazioni in cui una o entrambe le variabili hanno due categorie (etichettate con due numeri diversi, in genere 0/1) si traducono in misure di associazione comunemente utilizzate per tali situazioni.
Glen_b -Restate Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.