Come interpretare la PCA sui dati delle serie storiche?


19

Sto cercando di capire l'uso del PCA in un recente articolo di rivista intitolato "Mappare l'attività cerebrale su larga scala con il cluster computing" Freeman et al., 2014 (pdf gratuito disponibile sul sito web del laboratorio ). Usano la PCA sui dati delle serie storiche e usano i pesi della PCA per creare una mappa del cervello.

I dati sono dati di immagini di prova-media, memorizzati come una matrice (chiamata Y nella carta) con n voxel (o luoghi di imaging del cervello) × t punti temporali (la lunghezza di un singolo stimolazione al cervello).Y^n×t^

Usano SVD conseguente Y = U S V ( V indicante trasposta della matrice V

Y^=USV
VV ).

Gli autori affermano che

I componenti principali (le colonne di ) sono vettori di lunghezza t , ei punteggi (le colonne di U ) sono vettori di lunghezza nVt^Un (numero di voxel), che descrivono la proiezione di ciascun voxel sulla direzione data dalla corrispondente componente , formando proiezioni sul volume, ovvero mappe del cervello intero.

Quindi, i PC sono vettori di lunghezza t . Come posso interpretare che il "primo componente principale spiega la maggiore varianza" come è comunemente espresso nei tutorial di PCA? Abbiamo iniziato con una matrice di molte serie temporali altamente correlate: in che modo una singola serie temporale del PC spiega la varianza nella matrice originale? Comprendo l'intera "rotazione di una nuvola di punti gaussiana sull'asse più vario", ma non sono sicuro di come questo si riferisca alle serie temporali. Cosa significano gli autori per direzione quando affermano: "i punteggi (le colonne di U ) sono vettori di lunghezza nt^Un (numero di voxel), descrivendo la proiezione di ciascun voxel sulla direzione data dal componente corrispondente "? Come può un corso temporale di un componente principale avere una direzione?

Per vedere un esempio delle serie temporali risultanti dalle combinazioni lineari dei principali componenti 1 e 2 e la mappa cerebrale associata, vai al seguente link e passa con il mouse sui punti nel grafico XY.

Freman et al.

La mia seconda domanda è relativa alle traiettorie (spazio-stato) che creano usando i punteggi dei componenti principali.

Questi vengono creati prendendo i primi 2 punteggi (nel caso dell'esempio "optomotorio" che ho delineato sopra) e proiettano le singole prove (utilizzate per creare la matrice media della prova sopra descritta) nel sottospazio principale mediante l'equazione:

J=UY.

Come puoi vedere dai film collegati, ogni traccia nello spazio degli stati rappresenta l'attività del cervello nel suo insieme.

Qualcuno può fornire l'intuizione di cosa significhi ogni "frame" del film spaziale dello stato, rispetto alla figura che associa la trama XY delle partiture dei primi 2 PC. Che cosa significa in un determinato "frame" per 1 prova dell'esperimento essere in 1 posizione nello spazio di stato XY e un'altra prova essere in un'altra posizione? In che modo le posizioni della trama XY nei film sono correlate alle principali tracce dei componenti nella figura collegata menzionata nella prima parte della mia domanda?

Freeman et al.


1
+1 Ho modificato la tua domanda, dai un'occhiata a come si possono formattare le equazioni tex qui. A parte questo, conosco abbastanza bene il documento, quindi risponderò più avanti.
ameba dice Ripristina Monica il

1
Questo non è esattamente ciò che l'OP vuole, ma potrebbe essere utile nell'interpretazione dei componenti principali se presi dai dati delle serie temporali, poiché lo faccio sempre. Di solito mi piace interpretare la PCA come un'espansione di Karhunen-Loève: esprimere una data serie temporale, (le diverse serie temporali a cui si applica la PCA), come una combinazione lineare di serie temporali non correlate (cioè i componenti principali). I pesi di ogni serie storica in questo caso sono dati dagli autovettori ottenuti dalla matrice di covarianza. Xt
Néstor,

1
(Vedi questo per una spiegazione più approfondita del mio punto: astro.puc.cl/~nespino/files/Ch2_PCA_nespinoza.pdf )
Néstor

1
Ho aggiunto alla tua domanda alcuni screenshot a cui ti riferivi.
ameba dice Ripristina Monica il

come hai aggiunto le foto?
statHacker,

Risposte:


16

Q1: Qual è la connessione tra le serie storiche del PC e la "varianza massima"?

I dati che sono analisi sono t punti di dati per ciascuna delle n neuroni, così si può pensare che, come t punti dati nella n -dimensionale spazio R n . È "una nuvola di punti", quindi eseguire PCA equivale a trovare direzioni di massima varianza, come ben sapete. Preferisco chiamare queste direzioni (che sono autovettori della matrice di covarianza) "assi principali" e le proiezioni dei dati su queste direzioni "componenti principali".t^nt^nRn

Nell'analizzare serie temporale, l'unica aggiunta questa immagine è che i punti siano significato ordinate, o numerati (da a t ), invece di essere semplicemente un disordinato insieme di punti. Ciò significa che se prendiamo la frequenza di innesco di un singolo neurone (che è una coordinata in R n ), i suoi valori possono essere tracciati in funzione del tempo. Allo stesso modo, se si prende un PC (che è una proiezione da R n su qualche linea), quindi ha anche t valori e può essere tracciata come funzione del tempo. Quindi, se le funzionalità originali sono serie temporali, anche i PC sono serie temporali.1t^RnRnt^

Concordo con l'interpretazione di @ Nestor sopra: ogni caratteristica originale può quindi essere vista come una combinazione lineare di PC, e poiché i PC non sono correlati tra loro, si può pensare a loro come funzioni di base in cui sono scomposte le caratteristiche originali. È un po 'come l'analisi di Fourier, ma invece di prendere una base fissa di seno e coseno, stiamo trovando la base "più appropriata" per questo particolare set di dati, nel senso che il primo PC tiene conto della maggior parte della varianza, ecc.

"Contabilità per la maggior parte della varianza" qui significa che se si prende solo una funzione base (serie temporali) e si tenta di approssimare tutte le funzionalità con essa, il primo PC farà il lavoro migliore. Quindi l'intuizione di base qui è che il primo PC è una serie temporale di funzioni di base che si adatta al meglio a tutte le serie temporali disponibili, ecc.


Perché questo passaggio in Freeman et al. così confuso?

Freeman et al. analizzare la matrice di dati Y con le variabili (cioè neuroni) in file (!), non in colonne. Si noti che sottraggono le medie di riga, il che ha senso poiché le variabili sono solitamente centrate prima del PCA. Poi eseguono SVD: Y = U S V . Usando la terminologia sostengo sopra, colonne di U sono assi principali (indicazioni in R n ) e colonne di S V sono componenti principali (serie temporali di lunghezza tY^

Y^=USV.
URnSVt^ ).

La frase che hai citato da Freeman et al. è piuttosto confuso:

I componenti principali (le colonne di ) sono vettori di lunghezza t , ei punteggi (le colonne di U ) sono vettori di lunghezza n (numero di voxel), che descrivono la proiezione di ciascun voxel sulla direzione data dalla corrispondente componente , formando proiezioni sul volume, ovvero mappe del cervello intero.Vt^Un

Innanzitutto, le colonne di non sono PC, ma PC ridimensionati secondo la norma unitaria. In secondo luogo, le colonne di U NON sono punteggi, perché "punteggi" di solito significa PC. In terzo luogo, "la direzione data dal componente corrispondente" è una nozione criptica. Io penso che loro capovolgere l'immagine qui e suggeriscono di pensare a n punti in t spazio dimensionale, in modo che ora ogni neurone è un punto di dati (e non una variabile). Concettualmente sembra un grande cambiamento, ma matematicamente non fa quasi alcuna differenza, con l'unico cambiamento che gli assi principali e i componenti principali [norma unitaria] cambiano di posto. In questo caso, miei pc dall'alto ( t -lungo serie temporale) diventeranno assi principali, vale a direVUnt^t^direzioni e possono essere pensate come proiezioni normalizzate su queste direzioni (punteggi normalizzati?).U

Lo trovo molto confuso e quindi suggerisco di ignorare la loro scelta di parole, ma guardo solo le formule. Da questo punto in poi continuerò a usare i termini come mi piacciono, non come Freeman et al. usali.


Q2: quali sono le traiettorie dello spazio degli stati?

Prendono dati a prova singola e li proiettano sui primi due assi principali, ovvero le prime due colonne di ). Se l'avete fatto con i dati originali Y , si otterrebbe due prime componenti principali indietro. Ancora una volta, proiezione su un asse principale è un componente principale, ossia un t -lungo serie temporale.UY^t^

Se lo si fa con un po 'di dati a singolo processo , è ancora una volta ottiene due tYt^ -lungo serie storiche. Nel film, ogni singola riga corrisponde a tale proiezione: la coordinata x si evolve secondo PC1 e la coordinata y secondo PC2. Questo è ciò che viene chiamato "spazio degli stati": PC1 tracciato contro PC2. Il tempo passa mentre il punto si sposta.

Ogni riga nel film è ottenuto con un diverso processo singolo .Y


Ho fatto questa domanda come commento a seguito, ma forse @amoeba può aiutarti? Il vettore dei pesi del primo componente principale è solo la serie temporale media che collassa su tutti i voxel? Se fosse la media, si tradurrebbe nei punteggi più piccoli per adattarsi alle singole tracce di dati. -
statHacker

1
La risposta breve è no , generalmente non è la serie temporale media, sebbene in molti casi possa essere abbastanza vicina. Ad esempio, pensa a una raccolta di serie temporali che sono tutte linee rette con pendenze diverse (positive e negative) che attraversano tutte lo zero. Quindi la serie temporale media è attorno allo zero costante. Ma il primo PC sarà una linea lineare forte. A proposito, penso che questa sia una domanda eccellente e se vuoi maggiori dettagli e / o cifre, per favore, chiedilo (di nuovo) come domanda separata. Basta essere sicuri di non duplicare alcuna parte di questa domanda su Freeman et al .; separarli.
ameba dice Reinstate Monica il

(o chiunque sia interessato a una risposta) - per quanto riguarda il secondo trimestre, cosa intendi per "proiettare [ogni prova] sui primi due [PC]". Matematicamente è molto chiaro che U è un vettore di lunghezza n voxel e quando la matrice moltiplicata per la lunghezza n matrice Y otteniamo una riduzione di dimensionalità ai primi 2 PC. Puoi fornire intuizione riguardo al fatto che U è la matrice dei punteggi (ovvero la distanza di ciascun voxel dai primi 2 PC). Posso pensare a ciascun punto temporale di J come alla media 2-d della proiezione di ogni posizione di voxel nel grafico bidimensionale della prima immagine sopra?
statHacker

UU

SV

1

pVt^

Y^n×t^ matrice e quindi U è n×n mentre V è t^×t^.

Rispetto alla seconda domanda. L'equazione fornita è

J=UTY

Ci viene dato questo J è un 2 o 3 ×tmatrice. (Ciò comporta un piccolo gioco di prestigio nel far cadere righe / colonne.) Due o tre sono scelti come dimensionalità in quanto questo è ciò che può essere tracciato nella figura 6 del documento.

tuttavia tt^ quindi mi aspetto che le tracce separate (linee in fig 6) siano state ottenute tagliando Jnei diversi segmenti corrispondenti alle presentazioni dello stimolo. Ognuno di questi blocchi può quindi essere tracciato in uno spazio bidimensionale o tridimensionale considerando ciascuna colonna come un punto in quello spazio e quindi tracciare una linea tra i punti definiti da colonne adiacenti che danno le traiettorie.

In seguito al video sopra 8 appare per ogni blocco aggiungere ogni punto (colonna-) in sequenza, unirlo all'ultimo punto e renderizzare questa lunghezza t^ sequenza come un video.

Non ho mai affrontato la metodologia di colorazione prima e ci sarebbe voluto un po 'di tempo prima che fossi sicuro di commentare quell'aspetto. Ho trovato confuso il commento sulla somiglianza con Fig 4c poiché la colorazione è ottenuta lì dalla regressione per-voxel. Mentre in Fig 6 ogni traccia è un artefatto a immagine intera. A meno che non sia chiaro, penso che sia la direzione dello stimolo durante quel segmento di tempo secondo il commento nella Figura.


La prima figura sopra si riferisce a un esperimento con lo stesso stimolo visivo presentato ogni volta. C'è una figura e un film diversi per quei dati. La seconda figura sopra si riferisce a un diverso esperimento in cui gli stimoli sono stimoli visivi con orientamenti diversi, le tracce nella seconda figura sopra sono colorate per corrispondere semplicemente a diversi orientamenti di stimoli visivi.
statHacker,

Inoltre, hai ragione che il vettore originale Y viene tagliato fino a lunghezze di T^ \ n
statHacker,

Mi hai confuso discutendo V e S nell'equazione
J=UY.
Intendi le prime 2 o 3 colonne di U?
statHacker

I've re-arranged things. Apologies, was a left over from before I sorted something else out.
conjectures

Thanks for all your help. Is the first principal component weights vector just the mean time series collapsing across all voxels? If it were the mean, it would result in the smallest scores to fit to the individual data traces.
statHacker
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.