Analisi funzionale dei componenti principali (FPCA): di cosa si tratta?


21

L'analisi funzionale dei componenti principali (FPCA) è qualcosa su cui mi sono imbattuto e che non ho mai capito. Cos'è tutto questo?

Vedi "Un sondaggio sull'analisi delle componenti principali funzionali" di Shang, 2011 , e sto citando:

PCA incontra serie difficoltà nell'analizzare i dati funzionali a causa della "maledizione della dimensionalità" (Bellman 1961). La "maledizione della dimensionalità" ha origine dalla scarsità di dati nello spazio ad alta dimensione. Anche se le proprietà geometriche della PCA rimangono valide e anche se le tecniche numeriche forniscono risultati stabili, la matrice di covarianza del campione è talvolta una stima scadente della matrice di covarianza della popolazione. Per superare questa difficoltà, FPCA fornisce un modo molto più informativo di esaminare la struttura della covarianza del campione rispetto a PCA [...]

Non capisco. Qual è lo svantaggio che questo documento sta descrivendo? La PCA non dovrebbe essere il metodo migliore per gestire situazioni come la "maledizione della dimensionalità"?

Risposte:


7

Esattamente, come si afferma nella domanda e come @tdc inserisce la sua risposta, in caso di dimensioni estremamente elevate anche se le proprietà geometriche del PCA rimangono valide, la matrice di covarianza non è più una buona stima della covarianza della popolazione reale.


C'è un documento molto interessante "Analisi funzionale dei componenti principali dei dati fMRI" ( pdf ) in cui usano la PCA funzionale per visualizzare la varianza:

... Come in altre tecniche esplorative, l'obiettivo è quello di fornire una valutazione iniziale che darà ai dati la possibilità di "parlare da soli" prima di scegliere un modello appropriato. [...]

Nel documento spiegano come l'hanno fatto esattamente e forniscono anche un ragionamento teorico:

Il vantaggio decisivo di questo approccio consiste nella possibilità di specificare una serie di ipotesi nella scelta del set di funzioni di base e nella funzione di errore minimizzata dall'adattamento. Questi presupposti saranno più deboli della speci fi ca di una funzione emodinamica predeterminata e di una serie di eventi o condizioni come nel mascheramento F, preservando così il carattere esplorativo della procedura; tuttavia, le ipotesi potrebbero rimanere abbastanza rigorose da superare le difficoltà del normale PCA.


n×tnt»ntKK«t
L'ameba dice di reintegrare Monica il

Dopo aver letto qualcosa in più, ho deciso di pubblicare la mia risposta. Forse sarai interessato. Apprezzerò sicuramente ulteriori approfondimenti.
ameba dice di reintegrare Monica il

24

Trovo che "PCA funzionale" sia un'idea inutilmente confusa. Non è affatto una cosa separata, è un PCA standard applicato alle serie temporali.

ntn×tt»n201000t

Si può sicuramente applicare il PCA standard qui. Apparentemente, nella tua citazione l'autore è preoccupato che le serie storiche di autovetture risultanti saranno troppo rumorose. Questo può succedere davvero! Due modi ovvi per affrontarlo sarebbero (a) per lisciare le serie temporali di autovie risultanti dopo la PCA, oppure (b) per lisciare le serie storiche originali prima di fare la PCA.

KtK

I tutorial su FPCA di solito vanno in lunghe discussioni su come generalizzare la PCA agli spazi funzionali di infinita dimensionalità, ma la rilevanza pratica di ciò è totalmente al di là di me , poiché in pratica i dati funzionali sono sempre discretizzati per cominciare.

Ecco un'illustrazione tratta dal libro di testo "Analisi dei dati funzionali" di Ramsay e Silverman, che sembra essere la monografia definitiva sull'analisi dei dati funzionali che include FPCA:

Ramsay e Silverman, FPCA

Si può vedere che fare PCA sui "dati discretizzati" (punti) produce praticamente la stessa cosa che fare FPCA su funzioni corrispondenti su base di Fourier (linee). Naturalmente si potrebbe prima fare il PCA discreto e quindi inserire una funzione nella stessa base di Fourier; produrrebbe più o meno lo stesso risultato.

t=12n>t


2
Nel caso di traiettorie scarsamente campionati in modo irregolare (ad es. Dati longitudinali), FPCA è molto più coinvolto di " interpolare e quindi livellare le serie temporali di autovetture ". Ad esempio, anche se in qualche modo si ottengono alcuni componenti elettronici che calcolano i punteggi di proiezione dei dati sparsi non è ben definito; vedi ad esempio: Yao et al. JASA 2005. Concesso per processi densamente regolarmente campionati FPCA è effettivamente PCA con alcune penalità di scorrevolezza in cima.
usεr11852 dice Reinstate Monic il

Grazie, @ usεr11852 (+1). Devo trovare il tempo di esaminarlo di nuovo. Cercherò di cercare il documento a cui hai fatto riferimento e tornare a questa risposta.
ameba dice Reinstate Monica il

@amoeba, tutto questo sembra quasi correlato alla trasformazione discreta di Fourier, dove recuperi le onde componenti di una complessa onda / serie temporale?
Russell Richie,

9

Ho lavorato per diversi anni con Jim Ramsay alla FDA, quindi posso forse aggiungere alcuni chiarimenti alla risposta di @ amoeba. Penso a livello pratico, @amoeba ha fondamentalmente ragione. Almeno, questa è la conclusione che ho finalmente raggiunto dopo aver studiato la FDA. Tuttavia, il framework FDA fornisce una visione teorica interessante del perché il livellamento degli autovettori è più di un semplice problema. Si scopre che l'ottimizzazione nello spazio funzionale, soggetto a un prodotto interno che contiene una penalità di levigatezza, offre una soluzione dimensionale finita di spline di base. FDA utilizza lo spazio delle funzioni di dimensione infinita, ma l'analisi non richiede un numero infinito di dimensioni. È come il trucco del kernel nei processi gaussiani o SVM. È molto simile al trucco del kernel, in realtà.

Il lavoro originale di Ramsay ha affrontato situazioni in cui la storia principale nei dati è ovvia: le funzioni sono più o meno lineari o più o meno periodiche. Gli autovettori dominanti della PCA standard rifletteranno solo il livello generale delle funzioni e la tendenza lineare (o funzioni sinusoidali), in sostanza dicendoci ciò che già sappiamo. Le caratteristiche interessanti si trovano nei residui, che ora sono diversi autovettori in cima all'elenco. E poiché ogni autovettore successivo deve essere ortogonale ai precedenti, questi costrutti dipendono sempre più dai manufatti dell'analisi e meno dalle caratteristiche rilevanti dei dati. Nell'analisi fattoriale, la rotazione dei fattori obliqua mira a risolvere questo problema. L'idea di Ramsay non era quella di ruotare i componenti, ma piuttosto per cambiare la definizione di ortogonalità in un modo che rispecchi meglio le esigenze dell'analisi. Ciò significava che se si fosse interessati ai componenti periodici, si sarebbe lisciato sulla base diD3-DD2

Si potrebbe obiettare che sarebbe più semplice rimuovere la tendenza con OLS ed esaminare i residui di tale operazione. Non sono mai stato convinto che il valore aggiunto dell'FDA valesse l'enorme complessità del metodo. Ma da un punto di vista teorico, vale la pena considerare le questioni coinvolte. Tutto ciò che facciamo ai dati fa confusione. I residui di OLS sono correlati, anche quando i dati originali erano indipendenti. Il livellamento di una serie temporale introduce autocorrelazioni che non erano presenti nelle serie grezze. L'idea della FDA era di assicurare che i residui che ottenevamo dalla detrazione iniziale fossero adatti all'analisi degli interessi.

Devi ricordare che la FDA è nata nei primi anni '80 quando le funzioni della spline erano oggetto di studio attivo - pensa a Grace Wahba e al suo team. Da allora sono emersi molti approcci ai dati multivariati - come il SEM, l'analisi della curva di crescita, i processi gaussiani, ulteriori sviluppi nella teoria dei processi stocastica e molti altri. Non sono sicuro che la FDA rimanga l'approccio migliore alle domande che affronta. D'altra parte, quando vedo applicazioni di ciò che pretende di essere la FDA, mi chiedo spesso se gli autori capiscano davvero cosa la FDA stava cercando di fare.


+1. Oops, ho notato la tua risposta solo ora, e solo per caso (qualcun altro ha lasciato un commento sotto la mia risposta qui e ho fatto scorrere verso il basso). Grazie mille per aver contribuito! Penso di aver bisogno di trovare il tempo per leggere un po 'di più su questo e pensare a quello che hai detto sulla somiglianza con il trucco del kernel. Sembra ragionevole.
ameba dice Reinstate Monica il

5

Non sono sicuro di FPCA, ma una cosa da ricordare è che in dimensioni estremamente elevate, c'è molto più "spazio" e i punti all'interno dello spazio iniziano a sembrare uniformemente distribuiti (cioè tutto è lontano da tutto il resto). A questo punto la matrice di covarianza inizierà a sembrare sostanzialmente uniforme e sarà molto sensibile al rumore. Diventa quindi una cattiva stima della "vera" covarianza. Forse l'FPCA lo aggira in qualche modo, ma non ne sono sicuro.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.