Perché la ρ di Pearson è solo una misura esauriente dell'associazione se la distribuzione articolare è normale multivariata?


Risposte:


15

Potrebbe essere meglio comprendere la "misura dell'associazione" in una distribuzione multivariata in cui consistere tutte le proprietà che rimangono le stesse quando i valori vengono arbitrariamente riscalati e aggiornati. Ciò può cambiare i mezzi e le varianze in qualsiasi valore teoricamente ammissibile (le varianze devono essere positive; i mezzi possono essere qualsiasi cosa).

I coefficienti di correlazione ("Pearson's ") determinano quindi completamente una distribuzione normale multivariata. Un modo per vedere questo è guardare qualsiasi definizione formulaica, come formule per la funzione di densità o caratteristica. Coinvolgono solo mezzi, varianze e covarianze - ma covarianze e correlazioni possono essere dedotte l'una dall'altra quando si conoscono le varianze.ρ

La famiglia normale multivariata non è l'unica famiglia di distribuzioni che gode di questa proprietà. Ad esempio, qualsiasi distribuzione t multivariata (per gradi di libertà superiori a ) ha una matrice di correlazione ben definita ed è completamente determinata anche dai suoi primi due momenti.2


Ho ragione, secondo la definizione che si applica qui, la covarianza non sarebbe una misura di associazione? Dal momento che tende ad espandersi man mano che le varianze si espandono.
user1205901 - Ripristina Monica il

2
È corretto. Sebbene la covarianza sia ovviamente correlata a una misura di associazione, non è essa stessa perché è influenzata anche da altri fattori.
whuber

19

I variati possono essere associati in modi in cui la correlazione di Pearson è completamente cieca.

Nella normale multivariata, la correlazione di Pearson è "esaustiva", nel senso che l' unica associazione possibile è indicizzata da . Ma per altre distribuzioni (anche quelle con margini normali), ci può essere associazione senza correlazione. Ecco un paio di grafici di 3 variate casuali normali (x, ye x, z); sono altamente associati (se mi dici il valore di x -variate, ti dirò gli altri due, e se mi dici y posso dirti z ), ma sono tutti non correlati.ρxyz

inserisci qui la descrizione dell'immagine

Ecco un altro esempio di variate associate ma non correlate:

inserisci qui la descrizione dell'immagine

(Il punto alla base è stato fatto sulle distribuzioni, anche se lo sto illustrando con i dati qui.)

Anche quando i variati sono correlati, la correlazione di Pearson in generale non ti dice come : puoi ottenere forme di associazione molto diverse che hanno la stessa correlazione di Pearson, (ma quando i variati sono multivariati normali, non appena te lo dico la correlazione si può dire esattamente come sono correlati i variati standardizzati).

ρ

(Un modo comune per affrontare l'associazione multivariata è tramite le copule. Ci sono numerose domande sul sito relative alle copule; potresti trovarne alcune utili)


Esistono dati del mondo reale con tali distribuzioni?

@che cosa ci sono dati del mondo reale persino tratti dalle normali distribuzioni? Ne dubito, quindi (dato che i miei margini erano tutti normali nei diagrammi) ciò avrebbe reso la risposta "no" immediatamente. Il punto degli esempi era mostrare chiaramente perché l'associazione tra variabili casuali non è così semplice come talvolta si suppone (quanto spesso le persone calcolano una correlazione di Pearson per misurare l'associazione? Abbastanza spesso), e anche sottolineare che avere margini normali ed essere multivariato normali sono diversi. Esempi molto reali in cui la correlazione di Pearson non cattura ciò che sta accadendo certamente si verificano.
Glen_b -Restate Monica

Non parliamo di distribuzioni per un momento. Quando calcoliamo le correlazioni da una nuvola di punti, assumiamo una correlazione ideale "forma geometrica" ​​(lineare, iperbolica, logaritmica, seno, ecc.) Sottostante da cui i punti nella nuvola si discostano a causa di un "errore". Ora tutte le forme ideali che ho visto astratte da dati reali erano continue (senza interruzioni) e sempre crescenti lungo almeno un asse (che non è, ad esempio, circolare). La mia conoscenza dei dati è limitata, quindi mi chiedevo se esistessero effettivamente dati del mondo reale la cui correlazione è non continua o circolare.

Ad esempio, potrebbero esserci dei dati che, se ho tracciato, sembreranno due nuvole di punti. Se calcolassi ciecamente correlazioni su questi dati, potrei trovarne una, mentre (o almeno così mi è stato detto) la trama indica chiaramente che mi manca qualche variabile confondente sconosciuta che, se la spiegassi, risolverebbe la relazione spuria nel mio dati. Se il mio professore osservasse i tuoi esempi a "x" o "y", mi direbbe che ho due distinti sottoinsiemi di dati confusi.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.