Qual è la differenza tra analisi di dati funzionali e analisi di dati ad alta dimensione


10

Ci sono molti riferimenti nella letteratura statistica a " dati funzionali " (cioè dati che sono curve) e, in parallelo, a " dati ad alta dimensione " (cioè quando i dati sono vettori ad alta dimensione). La mia domanda riguarda la differenza tra i due tipi di dati.

Quando si parla di metodologie statistiche applicate che si applicano nel caso 1 può essere inteso come una riformulazione delle metodologie dal caso 2 attraverso una proiezione in un sottospazio dimensionale finito di uno spazio di funzioni, può essere polinomi, spline, wavelet, Fourier, ... e tradurrà il problema funzionale in un problema vettoriale dimensionale finito (dal momento che in matematica applicata tutto diventa ad un certo punto finito).

La mia domanda è: possiamo dire che qualsiasi procedura statistica che si applica ai dati funzionali può anche essere applicata (quasi direttamente) a dati ad alta dimensione e che qualsiasi procedura dedicata a dati ad alta dimensione può essere (quasi direttamente) applicata a dati funzionali?

Se la risposta è no, puoi illustrare?

MODIFICA / AGGIORNAMENTO con l'aiuto della risposta di Simon Byrne:

  • la sparsità (ipotesi S-sparse, sfera e sfera debole per ) viene utilizzata come ipotesi strutturale nell'analisi statistica ad alta dimensione.lplpp<1
  • "smoothness" è usato come presupposto strutturale nell'analisi dei dati funzionali.

D'altra parte, la trasformata inversa di Fourier e la trasformata inversa di wavelet stanno trasformando la sparcità in levigatezza e la levigatezza viene trasformata in sparcità da trasformata di wavelet e di Fourier. Questo rende la differenza critica menzionata da Simon non così critica?


1
Il livellamento è una parte importante dell'analisi dei dati funzionali e può essere convertito in un problema di stima della media vettoriale mediante proiezione su una base appropriata (ad esempio Fourier o wavelet), ma ci sono altri problemi nell'analisi dei dati funzionali a seconda della struttura funzionale che don non tradurre così facilmente. Prendiamo ad esempio la regressione funzionale quando sei interessato a prevedere una risposta funzionale da parte delle covariate.
vqv,

Risposte:


12

I dati funzionali spesso implicano una domanda diversa. Ho letto Analisi dei dati funzionali, Ramsey e Silverman, e passano molte volte a discutere la registrazione delle curve, le funzioni di deformazione e la stima dei derivati ​​delle curve. Queste tendono ad essere domande molto diverse rispetto a quelle poste dalle persone interessate allo studio di dati ad alta dimensione.


Pienamente d'accordo ! le domande che vengono poste sono diverse. La registrazione, la valutazione, la stima dei derivati ​​possono derivare dal punto di vista funzionale. Questo mi convince! quindi il grosso problema con i dati funzionali (com'è nella letteratura statistica) non sarebbe che è definito su un insieme continuo ma più che è indicizzato su un insieme ordinato?
Robin Girard,

Non è solo che è definito su un set ordinato. Altrimenti, come distingueresti l'analisi delle serie storiche dall'analisi dei dati funzionali? Sono d'accordo con @ user549 in quanto si riduce ai tipi di domande che vengono poste. Sono specifici per la struttura dei dati.
vqv,

15

Sì e no. A livello teorico, entrambi i casi possono utilizzare tecniche e strutture simili (un esempio eccellente è la regressione del processo gaussiana).

La differenza fondamentale sono le ipotesi utilizzate per prevenire un eccesso di adattamento (regolarizzazione):

  • Nel caso funzionale, di solito si parte dal presupposto della scorrevolezza, in altre parole, i valori che si verificano vicini dovrebbero essere simili in modo sistematico. Questo porta all'uso di tecniche come spline, loess, processi gaussiani, ecc.

  • Nel caso ad alta dimensione, di solito c'è un'ipotesi di scarsità: cioè solo un sottoinsieme delle dimensioni avrà alcun segnale. Questo porta a tecniche che mirano a identificare quelle dimensioni (Lasso, LARS, priors slab-spike, ecc.)

AGGIORNARE:

Non pensavo davvero ai metodi wavelet / Fourier, ma sì, le tecniche di soglia utilizzate per tali metodi mirano alla scarsità nello spazio proiettato. Al contrario, alcune tecniche ad alta dimensione presuppongono una proiezione su una varietà a dimensione inferiore (ad esempio l'analisi dei componenti principali), che è un tipo di assunzione di scorrevolezza.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.