Confuso sulla spiegazione visiva degli autovettori: come possono gli insiemi di dati visivamente diversi avere gli stessi autovettori?


10

Molti libri di testo statistici forniscono un'illustrazione intuitiva di ciò che sono gli autovettori di una matrice di covarianza:

inserisci qui la descrizione dell'immagine

I vettori u e Z formano gli autovettori (bene, eigenaxes). Questo ha senso. Ma l'unica cosa che mi confonde è che estraiamo gli autovettori dalla matrice di correlazione , non dai dati grezzi. Inoltre, i set di dati non elaborati molto diversi possono avere matrici di correlazione identiche. Ad esempio, entrambi hanno matrici di correlazione di:

[10.970.971]

autovettori

Come tali hanno autovettori che puntano nella stessa direzione:

[.71.71.71.71]

Ma se dovessi applicare la stessa interpretazione visiva di quali direzioni erano gli autovettori nei dati grezzi, otterrai vettori che puntano in direzioni diverse.

Qualcuno può dirmi dove ho sbagliato?

Seconda modifica : se potessi essere così audace, con le eccellenti risposte di seguito sono stato in grado di dare un senso alla confusione e di averlo illustrato.

  1. La spiegazione visiva è coerente con il fatto che gli autovettori estratti dalla matrice di covarianza sono distinti.

    Covarianze ed autovettori (rosso):

    [1111][.7.72.72.7]

    Covarianze ed autovettori (blu):

    [.25.5.51][.43.9.9.43]
  2. Le matrici di correlazione riflettono le matrici di covarianza delle variabili standardizzate. L'ispezione visiva delle variabili standardizzate dimostra perché nel mio esempio vengono estratti autovettori identici:

inserisci qui la descrizione dell'immagine


3
Se si desidera valutare la correlazione , è necessario disegnare i grafici a dispersione con scale in cui le deviazioni standard dei componenti sono uguali. Questo non è il caso di nessuna delle tue immagini (tranne forse per i punti rossi nella seconda), il che potrebbe essere uno dei motivi per cui trovi questo confuso.
whuber

3
Apprezzo che tu abbia illustrato la tua domanda. Ciò aiuta le persone a capirlo e aumenta il valore del thread per riferimenti futuri. Tenere presente, tuttavia, che circa il 10% degli uomini è daltonico rosso-verde. Con 2 colori, rosso e blu possono essere più sicuri.
gung - Ripristina Monica

Molte grazie, ho corretto i colori come mi hai suggerito
Sue Doh Nimh,

2
Nessun problema, @SueDohNimh. Grazie per averlo reso comprensibile per tutti. Su una nota diversa, terrei il [PCA]tag. Se vuoi ri-focalizzare la domanda, o porre una nuova domanda (correlata) e collegarti a questa, questo sembra a posto, ma penso che questa domanda sia abbastanza PCA per meritare il tag.
gung - Ripristina Monica

Bel lavoro, @SueDohNimh. Se lo desideri, puoi anche aggiungerlo come risposta alla tua domanda anziché come modifica.
gung - Ripristina Monica

Risposte:


9

Non è necessario eseguire PCA sulla matrice di correlazione; puoi scomporre anche la matrice di covarianza. Si noti che questi genereranno in genere soluzioni diverse. (Per ulteriori informazioni, vedi: PCA sulla correlazione o covarianza? )

Nella tua seconda figura, le correlazioni sono le stesse, ma i gruppi sembrano diversi. Sembrano diversi perché hanno diverse covarianze. Tuttavia, anche le varianze sono diverse (ad esempio, il gruppo rosso varia su un intervallo più ampio di X1) e la correlazione è la covarianza divisa per le deviazioni standard ( ). Di conseguenza, le correlazioni possono essere le stesse. Covxy/SDxSDy

Ancora una volta, se si esegue PCA con questi gruppi utilizzando le matrici di covarianza, si otterrà un risultato diverso rispetto a quando si utilizzano le matrici di correlazione.


2
+1 Probabilmente hai anche notato che con due variabili la matrice di correlazione ha sempre gli stessi due autovettori, e , indipendentemente dal valore della correlazione. ( 1 , - 1 )(1,1)(1,1)
whuber

1
+1 rispetto a quello che ha scritto @whuber, ma nota che gli autovalori corrispondenti dipendono dal valore di correlazione.
ameba,

Questo è vero, ma gli autovettori della matrice Cov possono variare in base alla correlazione.
gung - Ripristina Monica

1
Ciao ragazzi, molte grazie. Ero consapevole che autovettori distinti derivano invece dall'uso delle matrici di covarianza; questa era un'ulteriore fonte di preoccupazione poiché mi preoccupavo che usando matrici di correlazione, invece, stavo riducendo le informazioni utilizzate e quindi risultando meno preciso. Sarebbe sensato concludere in base alle tue risposte che l'interpretazione visiva fornita è realmente applicabile solo agli autovettori della matrice di covarianza dei dati grezzi piuttosto che alla matrice di correlazione?
Sue Doh Nimh,

1
Non proprio, @SueDohNimh. È possibile utilizzare l'interpretazione visiva, basta standardizzare prima le variabili se si desidera utilizzare la matrice di correlazione.
gung - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.