Quanto è solido il coefficiente di correlazione di Pearson alle violazioni della normalità?


20

I dati per alcuni tipi di variabili tendono a non essere normali se misurati in particolari popolazioni (ad es. Livelli di depressione in una popolazione di persone con Disturbo Depressivo Maggiore). Dato che Pearson assume la normalità, quanto è solida la statistica test in condizioni di non normalità?

Ho un numero di variabili per le quali vorrei coefficienti di correlazione, ma l'asimmetria Z per alcune di quelle variabili è significativa a p <.001 (e questo è per un campione relativamente piccolo). Ho provato alcune trasformazioni, ma i miglioramenti nelle distribuzioni sono solo marginali.

Dovrò attenermi ad analisi non parametriche? E non solo per le correlazioni, ma anche per altri tipi di analisi?


Aspetta, il coefficiente di correlazione di Pearson assume la normalità? Non penso che lo sia, e lo sto usando su dati non normali. Non è solo robusto per alcune cose che accadono più spesso in alcune situazioni non normali, ma ci sono molte situazioni non normali in cui non vedo alcun problema con l'uso del coefficiente di correlazione di Pearson.
Douglas Zare,

1
Che la correlazione di Pearson presupponga la normalità è ciò che sostengono molti testi statistici. Ho sentito altrove che la normalità è un presupposto inutile per Pearson's r. Quando eseguo le analisi, sia Pearson che Spearman producono risultati relativamente simili.
Archeopteryx,

Il coefficiente di correlazione dei ranghi di Spearman è il coefficiente di correlazione di Pearson applicato alle classifiche non normali. Non so ancora in che senso credi che Pearson richieda la normalità. Forse puoi dire qualche cosa in più nel caso in cui lo usi su una distribuzione normale multivariata.
Douglas Zare,

Lo sto solo usando per semplici correlazioni bivariate. Non sono sicuro del motivo per cui è richiesta la normalità. I testi statistici che ho letto elencano sempre la normalità come un'ipotesi della correlazione di Pearson e suggeriscono di usare Spearman per le condizioni in cui la non normalità vale.
Archeopteryx,

Risposte:


20

Risposta breve: molto robusta. La correlazione è una misura della dipendenza lineare e quando una variabile non può essere scritta come una funzione lineare dell'altra (e ha ancora la distribuzione marginale data), non è possibile avere una correlazione perfetta (positiva o negativa). In effetti, i possibili valori di correlazione possono essere severamente limitati.

Il problema è che mentre la correlazione della popolazione è sempre compresa tra e 1 , l'intervallo esatto raggiungibile dipende in larga misura dalle distribuzioni marginali. Una rapida dimostrazione e dimostrazione:11

Intervallo raggiungibile della correlazione

Se ha la funzione di distribuzione H e le funzioni di distribuzione marginale F e G , esistono dei limiti superiore e inferiore piuttosto piacevoli per H , H - ( x , y ) H ( x , y ) H + ( x , y ) , chiamato limiti di Fréchet. Questi sono (X,Y)HFGH

H(x,y)H(x,y)H+(x,y),
(Prova a dimostrarlo; non è molto difficile.)
H(x,y)=max(F(x)+G(y)1,0)H+(x,y)=min(F(x),G(y)).

I limiti sono essi stessi funzioni di distribuzione. Lascia che U abbia una distribuzione uniforme. Il limite superiore è la funzione di distribuzione di (X,Y)=(F(U),G(U)) e il limite inferiore è la funzione di distribuzione di .(F-(-U),sol-(1-U))

H H + H - Y X

Cov(X,Y)=H(X,y)-F(X)sol(y)dXdy,
vediamo che otteniamo la correlazione massima e minima quando è uguale a e , rispettivamente, cioè quando è un ( positivamente o negativamente, rispettivamente) funzione monotona di .HH+H-YX

Esempi

Ecco alcuni esempi (senza prove):

  1. Quando e sono normalmente distribuiti, otteniamo la massima e minima quando è la solita bivariata distribuzione normale dove è scritto come funzione lineare di . Cioè, otteniamo il massimo per Qui i limiti sono (ovviamente) e , non importa quale medie e le varianze e hanno.Y ( X , Y ) Y X Y = μ Y + σ Y X - μ XXY(X,Y)YX-11XY

    Y=μY+σYX-μXσX.
    -11XY
  2. Quando e hanno distribuzioni lognormali, il limite inferiore non è mai raggiungibile, poiché ciò implicherebbe che potrebbe essere scritto per alcuni e positivo , e non può mai essere negativo. Esistono formule (leggermente brutte) per i limiti esatti, ma lasciatemi solo fare un caso speciale. Quando e hanno distribuzioni lognormali standard (nel senso che quando esponenziali, sono normali normali), l'intervallo raggiungibile è . (In generale, anche il limite superiore è limitato.)XYYY=un'-BXun'BYXY[1/e,1][0.37,1]

  3. Quando ha una distribuzione normale standard e ha una distribuzione lognormale standard, i limiti di correlazione sono XY

    ±1e10.76.

Si noti che tutti i limiti sono per la correlazione della popolazione . La correlazione del campione può estendersi facilmente al di fuori dei limiti, specialmente per piccoli campioni (esempio rapido: dimensione del campione di 2).

Stima dei limiti di correlazione

In realtà è abbastanza facile stimare i limiti superiore e inferiore sulla correlazione se è possibile simulare dalle distribuzioni marginali. Per l'ultimo esempio sopra, possiamo usare questo codice R:

> n = 10^5      # Sample size: 100,000 observations
> x = rnorm(n)  # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769

Se disponiamo solo di dati effettivi e non conosciamo le distribuzioni marginali, possiamo comunque utilizzare il metodo sopra. Non è un problema che le variabili siano dipendenti fintanto che le coppie di osservazioni sono dipendenti. Ma aiuta ad avere molte coppie di osservazioni.

Trasformare i dati

YX

Quello che stai facendo qui è creare una nuova misura di dipendenza che non dipende dalle distribuzioni marginali; cioè, stai creando una misura della dipendenza basata sulla copula . Esistono già diverse misure di questo tipo, la ρ di Spearman  e la τ di Kendall  sono le più note. (Se sei veramente interessato ai concetti di dipendenza, non è una cattiva idea esaminare le copule.)

In conclusione

Alcuni pensieri e consigli finali: solo guardare la correlazione ha un grosso problema: ti fa smettere di pensare. Osservare i grafici a dispersione, d'altra parte, spesso ti fa iniziare a pensare. Il mio consiglio principale sarebbe quindi di esaminare i grafici a dispersione e provare a modellare esplicitamente la dipendenza.

Detto questo, se hai bisogno di una semplice misura simile alla correlazione, userò semplicemente ρ di Spearman  (e l'intervallo di confidenza e i test associati). La sua gamma non è limitata. Ma fai molta attenzione alla dipendenza non monotona. L' articolo di Wikipedia sulla correlazione ha un paio di belle trame che illustrano potenziali problemi.


1
+1 Questo bellissimo contributo affronta chiaramente diversi problemi ricorrenti associati alle correlazioni. Apprezzo in particolare le osservazioni del primo paragrafo conclusivo sull'arresto / inizio del pensiero.
whuber

La non robustezza rimarrebbe anche asintoticamente? In tal caso, la wiki non è corretta nel dire che "[La distribuzione t di Student per una semplice trasformazione di r] vale anche approssimativamente anche se i valori osservati non sono normali, purché le dimensioni del campione non siano molto piccole"?
massimo

5

Che aspetto hanno le distribuzioni di queste variabili (oltre ad essere distorte)? Se l'unica non normalità è l'asimmetria, allora una trasformazione di qualche tipo deve aiutare. Ma se queste variabili hanno molti grumi, nessuna trasformazione le porterà alla normalità. Se la variabile non è continua, lo stesso vale.

Quanto è solida la correlazione alle violazioni? Dai un'occhiata al Quartetto Anscombe. Illustra parecchi problemi abbastanza bene.

Come per altri tipi di analisi, dipende dall'analisi. Se le variabili oblique sono variabili indipendenti in una regressione, ad esempio, potrebbe non esserci alcun problema: è necessario esaminare i residui.


1
Alcune delle variabili hanno anche problemi con la curtosi, ma l'asimmetria è il problema più grande. Ho provato le trasformazioni di radice quadrata e log sulle variabili problematiche, ma non migliorano molto. In effetti, le distribuzioni sembrano quasi identiche, ma con un maggior accumulo di punteggi.
Archeopteryx,

1
Sembra molto strano. Puoi pubblicare media, mediana, asimmetria, curtosi della variabile in questione? O (ancora meglio) un diagramma della densità di esso?
Peter Flom - Ripristina Monica

6
Indipendentemente dal fatto che la distribuzione di (X, Y) sia normale bivariata o meno, la correlazione di Pearson è una misura del grado di linearità. La distribuzione di probabilità per la stima del campione dipenderà dalla normalità.
Michael R. Chernick,

3
Queste variabili non sono molto distorte. Puoi lasciarli così come sono.
Peter Flom - Ripristina Monica

3
Non preoccuparti del significato qui. In genere, l'inclinazione e la curtosi che sono <-2 o> 2 sono considerate forse bisognose di trasformazione. Meglio ancora è guardare i grafici, ad esempio il diagramma normale quantico e il diagramma di densità con il kernel per vedere cosa sta succedendo.
Peter Flom - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.