Risposta breve: molto robusta. La correlazione è una misura della dipendenza lineare e quando una variabile non può essere scritta come una funzione lineare dell'altra (e ha ancora la distribuzione marginale data), non è possibile avere una correlazione perfetta (positiva o negativa). In effetti, i possibili valori di correlazione possono essere severamente limitati.
Il problema è che mentre la correlazione della popolazione è sempre compresa tra e 1 , l'intervallo esatto raggiungibile dipende in larga misura dalle distribuzioni marginali. Una rapida dimostrazione e dimostrazione:- 11
Intervallo raggiungibile della correlazione
Se ha la funzione di distribuzione H e le funzioni di distribuzione marginale F e G , esistono dei limiti superiore e inferiore piuttosto piacevoli per H ,
H - ( x , y ) ≤ H ( x , y ) ≤ H + ( x , y ) ,
chiamato limiti di Fréchet. Questi sono
( X, Y)HFsolH
H-( x , y) ≤ H( x , y) ≤ H+( x , y) ,
(Prova a dimostrarlo; non è molto difficile.)
H-( x , y)H+( x , y)= max ( F( x ) + G ( y) - 1 , 0 )= min ( F( x ) , G ( y) ) .
I limiti sono essi stessi funzioni di distribuzione. Lascia che U abbia una distribuzione uniforme. Il limite superiore è la funzione di distribuzione di (X,Y)=(F−(U),G−(U)) e il limite inferiore è la funzione di distribuzione di .( F-( - U) , G-( 1 - U) )
H H + H - Y X
Cov( X, Y) = ∬H( x , y) - F( x ) G ( y) dx dy,
vediamo che otteniamo la correlazione massima e minima quando è uguale a e , rispettivamente, cioè quando è un ( positivamente o negativamente, rispettivamente) funzione monotona di .
HH+H-YX
Esempi
Ecco alcuni esempi (senza prove):
Quando e sono normalmente distribuiti, otteniamo la massima e minima quando è la solita bivariata distribuzione normale dove è scritto come funzione lineare di . Cioè, otteniamo il massimo per
Qui i limiti sono (ovviamente) e , non importa quale medie e le varianze e hanno.Y ( X , Y ) Y X Y = μ Y + σ Y X - μ XXY( X, Y)YX-11XY
Y= μY+ σYX- μXσX.
- 11XY
Quando e hanno distribuzioni lognormali, il limite inferiore non è mai raggiungibile, poiché ciò implicherebbe che potrebbe essere scritto per alcuni e positivo , e non può mai essere negativo. Esistono formule (leggermente brutte) per i limiti esatti, ma lasciatemi solo fare un caso speciale. Quando e hanno distribuzioni lognormali standard (nel senso che quando esponenziali, sono normali normali), l'intervallo raggiungibile è . (In generale, anche il limite superiore è limitato.)XYYY= a - b Xun'BYXY[−1/e,1]≈[−0.37,1]
Quando ha una distribuzione normale standard e ha una distribuzione lognormale standard, i limiti di correlazione sono
XY
±1e−1−−−−√≈0.76.
Si noti che tutti i limiti sono per la correlazione della popolazione . La correlazione del campione può estendersi facilmente al di fuori dei limiti, specialmente per piccoli campioni (esempio rapido: dimensione del campione di 2).
Stima dei limiti di correlazione
In realtà è abbastanza facile stimare i limiti superiore e inferiore sulla correlazione se è possibile simulare dalle distribuzioni marginali. Per l'ultimo esempio sopra, possiamo usare questo codice R:
> n = 10^5 # Sample size: 100,000 observations
> x = rnorm(n) # From the standard normal distribution
> y = rlnorm(n) # From the standard lognormal distribution
>
> # Estimated maximum correlation
> cor( sort(x), sort(y) )
0.772
>
> # Estimated minimum correlation
> cor( sort(x), sort(y, decreasing=TRUE) )
−0.769
Se disponiamo solo di dati effettivi e non conosciamo le distribuzioni marginali, possiamo comunque utilizzare il metodo sopra. Non è un problema che le variabili siano dipendenti fintanto che le coppie di osservazioni sono dipendenti. Ma aiuta ad avere molte coppie di osservazioni.
Trasformare i dati
YX
Quello che stai facendo qui è creare una nuova misura di dipendenza che non dipende dalle distribuzioni marginali; cioè, stai creando una misura della dipendenza basata sulla copula . Esistono già diverse misure di questo tipo, la ρ di Spearman e la τ di Kendall sono le più note. (Se sei veramente interessato ai concetti di dipendenza, non è una cattiva idea esaminare le copule.)
In conclusione
Alcuni pensieri e consigli finali: solo guardare la correlazione ha un grosso problema: ti fa smettere di pensare. Osservare i grafici a dispersione, d'altra parte, spesso ti fa iniziare a pensare. Il mio consiglio principale sarebbe quindi di esaminare i grafici a dispersione e provare a modellare esplicitamente la dipendenza.
Detto questo, se hai bisogno di una semplice misura simile alla correlazione, userò semplicemente ρ di Spearman (e l'intervallo di confidenza e i test associati). La sua gamma non è limitata. Ma fai molta attenzione alla dipendenza non monotona. L' articolo di Wikipedia sulla correlazione ha un paio di belle trame che illustrano potenziali problemi.