Intuizione / interpretazione di una distribuzione di autovalori di una matrice di correlazione?


13

Qual è la tua intuizione / interpretazione di una distribuzione di autovalori di una matrice di correlazione? Tendo a sentire che di solito 3 autovalori maggiori sono i più importanti, mentre quelli vicini allo zero sono rumore. Inoltre, ho visto alcuni articoli di ricerca che studiano come le distribuzioni di autovalori presenti in natura differiscano da quelle calcolate da matrici di correlazione casuali (di nuovo, distinguendo il rumore dal segnale).

Sentiti libero di elaborare le tue intuizioni.


Hai in mente qualche applicazione particolare, ovvero cerchi consigli generali su quanti EV dobbiamo considerare a prescindere da qualsiasi applicazione (ad esempio da un lato puramente matematico) o dovrebbe applicarsi a un contesto specifico (ad es. Analisi dei fattori, PCA, ecc.)?
chl

Sono più interessato al lato matematico, vale a dire autovalori come proprietà dei dati sottostanti una matrice di correlazione. Se ha senso discuterne in termini di contesto specifico, sentiti libero di farlo.
Eduardas,

Risposte:


4

Tendo a sentire che di solito 3 autovalori maggiori sono i più importanti, mentre quelli vicini allo zero sono rumore

Puoi provarlo. Vedi l'articolo collegato in questo post per maggiori dettagli. Ancora una volta, se hai a che fare con serie temporali finanziarie, potresti voler prima correggere la leptokurticity (vale a dire, considera la serie di rendimenti aggiustati per i trucchi, non i rendimenti grezzi).

Ho visto alcuni articoli di ricerca che studiano come le distribuzioni di autovalori presenti in natura differiscano da quelle calcolate da matrici di correlazione casuali (di nuovo, distinguendo il rumore dal segnale).

Edward:> Di solito, uno lo farebbe al contrario: guarda la distribuzione multivariata di autovalori (di matrici di correlazione) provenienti dall'applicazione che desideri. Una volta identificato un candidato credibile per la distribuzione di autovalori, dovrebbe essere abbastanza facile generare da essi.

La migliore procedura su come identificare la distribuzione multivariata dei tuoi autovalori dipende da quante risorse vuoi considerare simultaneamente (cioè quali sono le dimensioni della tua matrice di correlazione). C'è un trucco accurato se ( p è il numero di attività).p10p

Modifica (commenti di Shabbychef)

procedura in quattro passaggi:

  1. Supponiamo di avere sottocampioni di dati multivariati. È necessario uno stimatore della matrice varianza-covarianza ˜ C j per ciascun sottocampione j (è possibile utilizzare lo stimatore classico o una valida alternativa come l' MCD veloce , che è ben implementato in matlab, SAS, S, R ,. ..). Come al solito, se hai a che fare con serie temporali finanziarie, dovresti prendere in considerazione la serie di rendimenti adeguati all'andamento, non rendimenti grezzi.j=1,...,JC~jj
  2. Per ogni sottocampione , calcolare ˜ Λ j = log ( ˜ λ j 1 ) , ..., log ( ˜ λ j p ) , i valori di automa di ˜ C j .jΛ~j= log(λ~1j)log(λ~pj)C~j
  3. Calcola , lo scafo convesso della matrice J × p la cui j-esima voce è ˜ Λ j (di nuovo, questo è ben implementato in Matlab, R, ...).CV(Λ~)J×pΛ~j
  4. Disegnare punti a caso dall'interno (questo fatto dando peso w i a ciascuno dei bordi di C V ( ~ Λ ) dove w i = γ iCV(Λ~)wioCV(Λ~) , doveγiè un'estrazione da un'unità di distribuzione esponenziale (maggiori dettagliqui).wio=γioΣio=1pγioγio

Una limitazione è che il calcolo rapido dello scafo convesso di una serie di punti diventa estremamente lento quando il numero di dimensioni è maggiore di 10. J2


1
Sono curioso: qual è il trucco?
shabbychef,

Intendi gli autovettori di in 3? non valori ? C~
shabbychef,

no. è uno scalare. λ1
user603

Questa è una procedura molto strana; è stato pubblicato da qualche parte?
shabbychef,

@Shabbychev:> no, ma ho avuto l'opportunità di lavorare su un problema correlato (solo che non riguarda una serie temporale) qualche tempo fa (stesso problema di questo stats.stackexchange.com/questions/2572/… )
user603

11

Gli autovalori forniscono le principali componenti principali della diffusione dei dati.



(3001)π/4


2

K

Di solito, il primo autovalore ha quasi la stessa ponderazione in tutti i nomi, vale a dire il portafoglio "di mercato" che comprende tutte le attività con pesi in dollari uguali. Il secondo eigenportfolio può avere un significato semantico, a seconda del periodo di tempo che guardi: ad es. Principalmente azioni energetiche, o azioni bancarie, ecc. Nella mia esperienza, ti sarebbe difficile trovare una storia dal quinto autovettura o oltre, e questo dipende in parte dalla selezione dell'universo e dal periodo di tempo considerato. Questo va bene perché di solito il quinto autovalore non è troppo oltre i limiti imposti dalla distribuzione Marchenko-Pastur.


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.