Perché la quantità di varianza è spiegata dal mio 1 ° PC così vicino alla correlazione media a coppie?


9

Qual è la relazione tra i primi componenti principali e la correlazione media nella matrice di correlazione?

Ad esempio, in un'applicazione empirica osservo che la correlazione media è quasi uguale al rapporto tra la varianza del primo componente principale (primo autovalore) e la varianza totale (somma di tutti gli autovalori).

C'è una relazione matematica?

Di seguito è riportato il grafico dei risultati empirici. Laddove la correlazione è la correlazione media tra i rendimenti dei componenti dell'indice azionario DAX calcolati sulla finestra mobile di 15 giorni e la varianza spiegata è la quota della varianza spiegata dal primo componente principale, calcolata anche sulla finestra mobile di 15 giorni.

Ciò potrebbe essere spiegato da un modello comune di fattore di rischio come CAPM?

inserisci qui la descrizione dell'immagine


1
Cosa pensi succeda quando molte delle correlazioni sono negative o vicine allo zero? Ad esempio, generare alcuni dati normali bivariati con zero correlazione. Perché ti aspetti che ci sia una relazione tra il tuo rapporto di varianza e quella correlazione zero?
whuber

Risposte:


6

Credo che la relazione tra la correlazione media e l'autovalore del 1 ° PC esista ma non sia unica. Non sono un matematico in grado di dedurlo, ma posso almeno mostrare il punto di partenza da dove potrebbe nascere l'intuizione o il pensiero.

Se si disegnano variabili standardizzate come vettori nello spazio euclideo che lo ospita (e questo è lo spazio ridotto in cui gli assi sono osservazioni), la correlazione è il coseno tra due vettori .

inserisci qui la descrizione dell'immagine

E poiché i vettori sono tutti di lunghezza unitaria (a causa della standardizzazione) i coseni sono le proiezioni dei vettori l'uno sull'altro (come mostrato nell'immagine a sinistra con tre variabili). Il 1 ° PC è una tale linea in questo spazio che massimizza la somma delle proiezioni quadrate su di essa, a , chiamate caricamenti; e questa somma è il primo autovalore.

Quindi, quando stabilisci la relazione tra la media delle tre proiezioni a sinistra con la somma (o media) delle tre proiezioni quadrate a destra, rispondi alla tua domanda sulla relazione tra la correlazione media e l'autovalore.


6

Quello che penso sia successo qui è che tutte le variabili erano positivamente correlate tra loro. In questo caso il 1 ° PC risulta abbastanza spesso molto vicino alla media di tutte le variabili. Se tutte le variabili sono positivamente correlate con esattamente lo stesso coefficiente di correlazione , il 1 ° PC è esattamente proporzionale alla media di tutte le variabili, come spiego qui: la media di tutte le variabili può essere vista come una forma grezza di PCA?c

In questo semplice caso si può effettivamente ricavare matematicamente la relazione di cui si sta chiedendo. Prendi in considerazione la matrice di correlazione di dimensione simile a quella:Il suo primo autovettore è uguale a , che corrisponde alla media [ridimensionata] di tutte le variabili. Il suo autovalore è . La somma di tutti gli autovalori se ovviamente data dalla somma di tutti gli elementi diagonali, ovvero . Quindi la proporzione di varianza spiegata dal primo PC è uguale an×n

(1cccc1cccc1cccc1).
(1,1,1,1)/nλ1=1+(n1)cλi=n
R2=1n+n1ncc.

Quindi in questo caso molto semplice la proporzione di varianza spiegata dal primo PC è correlata al 100% con la correlazione media, e per grande è approssimativamente uguale ad essa. Questo è esattamente ciò che vediamo sulla tua trama.n

Mi aspetto che per matrici di grandi dimensioni, questo risultato sarà approssimativamente valido anche se le correlazioni non sono esattamente identiche.


Aggiornare. Utilizzando la figura pubblicata nella domanda, si può anche provare a stimare la notando che . Se prendiamo e , otteniamo . L'OP ha affermato che i dati erano un "indice azionario DAX"; cercandolo su Google, vediamo che apparentemente è composto da variabili. Non è una brutta partita.nn=(1c)/(R2c)c=0.5R2c=0.02n=2530

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.