L'analisi delle componenti principali può essere utilizzata sui prezzi delle azioni / dati non stazionari?


10

Sto leggendo un esempio nel libro Machine Learning for Hackers . Prima elaborerò l'esempio e poi parlerò della mia domanda.

Esempio :

Prende un set di dati per 10 anni di 25 azioni. Esegue PCA sui 25 prezzi delle azioni. Confronta il componente principale con l'indice Dow Jones. Osserva una forte somiglianza tra PC e DJI!

Da quello che ho capito, l'esempio è più simile a un giocattolo per aiutare i neofiti come me a capire quanto sia efficace uno strumento PCA!

Tuttavia, leggendo da un'altra fonte , vedo che i prezzi delle azioni non sono stazionari e che l'esecuzione dell'APC sui prezzi delle azioni è assurda. Le fonti da cui ho letto ridicolizzano totalmente l'idea di calcolare covarianza e PCA per i prezzi delle azioni.

Domande :

  1. Come ha funzionato così bene l'esempio? Il PCA dei corsi azionari e DJI erano molto vicini tra loro. E i dati sono dati reali dai corsi azionari 2002-2011.

  2. Qualcuno può indicarmi una buona risorsa per leggere dati fissi / non stazionari? Sono un programmatore. Ho una buona preparazione matematica. Ma non faccio matematica seria da 3 anni. Ho ricominciato a leggere su cose come passeggiate casuali, ecc.

Risposte:


10

Questo pezzo serve a rispondere parzialmente alla domanda originale e ad alcune delle domande sollevate nei commenti alla risposta di @ JonEgil.

I rendimenti finanziari (logaritmici) * sono approssimativamente (sebbene ci sia spesso una certa eteroschedasticità condizionata) - mentre i prezzi sono approssimativamente casuali. Partendo dal presupposto delle osservazioni , l'analisi dei componenti principali si generalizzerebbe direttamente dal campione alla popolazione (ovvero i componenti principali del campione stimerebbero i componenti principali della popolazione), ma ciò potrebbe non valere sotto le osservazioni non - vedere questo thread . Questo è il motivo per cui ha senso eseguire PCA sui rendimenti (logaritmici) piuttosto che sui prezzi.i.i.d.i.i.d.i.i.d.

Ruey S. Tsay ha sostenuto per l'esecuzione di PCA su residui di modelli econometrici di serie finanziarie, dal momento che i residui sono normalmente assunti essere Penso che questa idea potrebbe essere incluso un certo posto nel suo "multivariata Analisi delle serie R e Applicazioni finanziarie" libro di testo (mi ha spiegato di persona l'idea, quindi non sono sicuro di dove sia scritto).i.i.d.

* Il ritorno logaritmico sul prezzo è definito come . I ritorni logaritmici vengono utilizzati per comodità al posto dei ritorni percentuali . La comoda funzione dei ritorni logaritmici è che è possibile riassumere ritorni logaritmici individuali per ottenere il ritorno logaritmico totale in periodi , mentre ciò non vale per i ritorni percentuali. Per rendimenti percentuali relativamente piccoli (cosa comune nella finanza), i rendimenti logaritmici restituiscono percentuali approssimativamente uguali poiché il logaritmo ha una pendenza approssimativa di unità attorno a uno.Ptr:=log(Pt)log(Pt1)=logPtPt1r:=PtPt1Pt1hh


1
+1, questo è interessante. Puoi espandere un po 'quello che in realtà è un "ritorno"? La mia conoscenza dell'economia è zero; Ho cercato su Google e ho scoperto che se il prezzo è dato da serie temporali, i rendimenti sono definiti come . È corretto? Se è così, allora perché il logaritmo? Comprenderei la tua argomentazione sulla relazione tra i rendimenti iid e i prezzi dei passi casuali se i rendimenti fossero definiti come differenze. A parte questo, DJ è il prezzo medio, quindi ancora non capisco perché PC1 dei rendimenti dovrebbe essere una corrispondenza migliore di PC1 dei prezzi, anche date le tue considerazioni su iid. log f ( t i + 1 )f(ti)logf(ti+1)f(ti)
amoeba,

1
@amoeba, ho aggiunto una breve spiegazione e ora devo partire. Spero di non aver fatto troppi errori lì. Tornerò domani se ci sono ulteriori problemi.
Richard Hardy,

1
Grazie. Vedo ora che i rendimenti (rendimenti logaritmici) sono essenzialmente una derivata (prima differenza) del logaritmo dei prezzi. Quindi, se l'affermazione è che i ritorni sono scontati e che i prezzi di registro sono passeggiate casuali, allora ha senso. Tuttavia, sono ancora sorpreso dall'esempio di Dow Jones e apprezzerei ulteriori chiarimenti.
amoeba,

6

Eseguo questi tipi di analisi in modo professionale e posso confermare che sono davvero utili. Ma assicurati di analizzare i resi non i prezzi. Ciò è evidenziato anche dalla critica in Mezzi snelli:

To perform PCA, your data have to have a meaningful covariance matrix 
(or correlation matrix, but the conditions are equivalent). They analyze 
stock prices, which are non-stationary time series variables.

Un tipico esempio di utilizzo nella nostra analisi è la quantificazione del rischio sistemico sul mercato. Maggiore è il co-movimento sul mercato, minore sarà la diversificazione che hai davvero nel tuo portafoglio. Questo può, ad esempio, essere quantificato dalla quantità di varianza descritta dal primo componente principale. Che è identico al valore del primo autovalore.

Per i dati finanziari, si esamina in genere una finestra mobile nel tempo. È utile qualche forma di fattore di decadimento che appesantisce le osservazioni precedenti. Per i dati giornalieri, qualsiasi periodo compreso tra 20 e 60 giorni, per i dati settimanali forse 1-2 anni, tutto a seconda delle esigenze.

Si noti che per i mercati finanziari globali, con decine o centinaia di migliaia di prezzi delle attività che cambiano continuamente, una tipica chiamata non può eseguire una matrice di covarianza da 100K a 100K. Invece, il caso d'uso tipico è quello di eseguire l'analisi per paese, per settore o altri gruppi più significativi. In alternativa, suddividere il rendimento per un insieme di fattori sottostanti (valore, dimensione, qualità, credito ....) e fare l'analisi PCA / Covarianza su questi.

Alcuni articoli interessanti includono la discussione di Attilio Meucci sul numero effettivo di scommesse: http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1358533

, e anche Ledoit e Honey 's Honey Ho ridotto la matrice di covarianza di esempio http://www.math.umn.edu/~bemis/MFM/2014/spring/References/lw_shrinkage.pdf

Per un'introduzione finanziariamente orientata alla stazionarietà, perché non iniziare con Investopedia. Non è rigoroso, ma trasmette le idee principali.

In bocca al lupo!

EDIT: Ecco un esempio di 3 titoli che mostra Apple, Google e Dow Jones con rendimenti giornalieri fino al 2015. Il triangolo superiore mostra la correlazione del rendimento, il triangolo inferiore mostra la correlazione dei prezzi.

Correlazione del rendimento del triangolo superiore, correlazione del prezzo del triangolo inferiore

Come si può vedere, Apple ha una maggiore correlazione dei prezzi con Dow (in basso a sinistra 0,76) rispetto alla correlazione del rendimento (in alto a destra 0,66). Cosa possiamo imparare da quello? Non tanto. Google ha una correlazione negativa dei prezzi con Apple (-0,28) e Dow (-0,27). Ancora una volta, non c'è molto da imparare da questo. Tuttavia, le correlazioni di ritorno ci dicono che Apple e Google hanno entrambe una correlazione abbastanza elevata con il Dow (rispettivamente 0,66 e 0,53). Questo ci dice qualcosa sul co-movimento (variazione di prezzo) delle attività in un portafoglio. Questa è un'informazione utile.

Il punto principale è che sebbene la correlazione dei prezzi possa essere calcolata altrettanto facilmente, non è interessante. Perché? Perché il prezzo di un titolo non è interessante in sé. La variazione di prezzo , tuttavia, è molto interessante.


Potete per favore ampliare maggiormente la parte principale della domanda che riguarda la differenza tra l'utilizzo dei prezzi rispetto ai rendimenti? Comprendo che quando si utilizzano i prezzi, la matrice di correlazione sarà influenzata dalle non stazionalità; ad es. se tutti i prezzi crescono linearmente, allora tutte le correlazioni saranno fortemente positive. Innanzitutto, perché è male? In particolare, dato che Dow Jones è essenzialmente un prezzo medio e crescerà anche (come farà PC1). In secondo luogo, come dovrebbe essere utile l'utilizzo dei resi? I "ritorni" di AFAIK sono rapporti registrati dei punti vicini; perché è significativo e in che modo è legato a Dow Jones?
amoeba,

grazie per la tua risposta informativa. Ma non risponde alla mia domanda. Voglio capire perché l'analisi del prezzo sta funzionando molto bene per il set di dati nel libro? E l'ameba ha sollevato molte domande valide.
claudius

1
@claudius: Il fatto che l'APC sui prezzi dia qualcosa di simile a Dow Jones, che è il prezzo medio, non sorprende affatto. Mi chiedo piuttosto perché PCA sui ritorni produca una misura migliore. Forse Jon sarà in grado di chiarire.
amoeba,

1
Non ho esaminato il codice reale eseguito in ML per gli hacker, ma ogni volta che qualcuno dice di analizzare i prezzi, 99 volte su 100 ciò che effettivamente analizzano sono i rendimenti dei registri. Ad esempio, oggi il Dow è sceso di 162 punti, mentre Apple è sceso di 0,88 dollari. Non solo i numeri sono molto diversi, ma sono anche su una scala diversa, punti indice contro denaro. Ma in termini PCT lo 0,91% e lo 0,75% sono comparabili e i numeri con cui vuoi lavorare. Per alcune analisi, si può declassare i dati sottraendo la media. Nel breve periodo finanziario questo viene spesso ignorato, ipotizzando una tendenza.
Jon Egil,

1
@amoeba, Per (parzialmente) rispondere alle domande sollevate nei commenti, i ritorni sono approssimativamente iid mentre i prezzi sono approssimativamente passeggiate casuali. I componenti principali hanno le loro belle proprietà sotto l'ipotesi di osservazioni iid. Ecco perché ha senso eseguire PCA sui rendimenti anziché sui prezzi. Ruey S. Tsay ha sostenuto di aver eseguito l'APC sui residui di modelli econometrici di serie temporali finanziarie, dal momento che si ritiene che i residui siano normalmente considerati, a mio avviso, che potrebbero essere inclusi nel suo libro di testo "Analisi delle serie temporali multivariata con applicazioni finanziarie e finanziarie".
Richard Hardy,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.