Proprietà del PCA per osservazioni dipendenti


23

Usiamo solitamente PCA come tecnica di riduzione della dimensionalità per i dati in cui si presume che i casi siano considerati

Domanda: Quali sono le sfumature tipiche dell'applicazione del PCA per dati dipendenti e non iid? Quali proprietà utili / utili di PCA che detengono per i dati iid sono compromesse (o completamente perse)?

Ad esempio, i dati potrebbero essere una serie temporale multivariata, nel qual caso ci si potrebbe aspettare un'auto-correlazione o un'eteroschedasticità condizionale autoregressiva (ARCH).

Diverse domande correlate sull'applicazione dell'APC ai dati delle serie temporali sono state poste prima, ad esempio 1 , 2 , 3 , 4 , ma sto cercando una risposta più generale e completa (senza la necessità di espandere molto su ogni singolo punto).

Modifica: come notato da @ttnphns, lo stesso PCA non è un'analisi inferenziale. Tuttavia, si potrebbe essere interessati alle prestazioni di generalizzazione dell'APC, ovvero concentrandosi sulla controparte della popolazione dell'APC campione. Ad esempio, come scritto in Nadler (2008) :

Supponendo che i dati forniti siano un campione finito e casuale di una distribuzione (generalmente sconosciuta), una domanda teorica e pratica interessante è la relazione tra i risultati del PCA campione calcolati da dati finiti e quelli del modello di popolazione sottostante.

Riferimenti:


14
Solo per nota. La stessa PCA non è un'analisi inferenziale. È una trasformazione del set di dati multivariato di numeri; il suo nucleo è solo svd o eigendecomposition. Pertanto non presuppone l'indipendenza dell'osservazione. I presupposti sorgono quando usiamo la PCA come strumento statistico per analizzare campioni di popolazioni. Ma non sono i presupposti di PCA. Ad esempio, test per la sfericità per decidere se il PCA è giustificato per ridurre i dati richiede l'indipendenza, e il test può sembrare un test di assunzione "all'interno del PCA", ma in realtà si tratta di un test "esterno".
ttnphns

@ttnphns, ottimi punti, grazie. Se vedi un modo semplice per modificare il mio post, sentiti libero di farlo. Ci penserò anche io.
Richard Hardy,

1
Richard, la tua domanda è buona e importante (+1). Solo forse preferirei riformattarlo un po 'in un modo come "Usiamo solitamente PCA come riduzione dimensionale per i dati in cui si presume che i casi ... Quali sono le sfumature tipiche nell'applicazione del PCA per dati di serie temporali in cui casi (tempo punti) sono lag-interdipendenti ...? "
ttnphns,

1
@amoeba, giusto. Ma quasi mai ci fermiamo a ottenere i caricamenti dei PC. Nei passaggi che seguono comunemente la PCA, di cosa dovremmo essere consapevoli in caso di non disabilità? Spero che una risposta possa essere migliore della domanda (nella sua attuale formulazione). Se lo guardi vagamente / in modo creativo, forse potresti trovare alcuni punti positivi.
Richard Hardy,

2
Il PCA semplice rispetta solo le associazioni "orizzontali" (cioè tra le colonne) e ignora "verticale" (tra i casi): la matrice di covarianza delle colonne è la stessa se si mescolano i casi. Se questo può essere chiamato "nessuna ipotesi per relazioni seriali" o "viene fatta un'ipotesi per casi indipendenti" è una questione di gusti. L'ipotesi iid è il valore predefinito nell'analisi dei dati e quindi i metodi che semplicemente non prestano particolare attenzione all'ordine dei casi, come PCA, potrebbero essere imputati al "supporto silenzioso" per l'assunzione iid.
ttnphns,

Risposte:


1

Presumibilmente, potresti aggiungere la componente temporale come funzionalità aggiuntiva ai tuoi punti campionati, e ora sono iid? Fondamentalmente, i punti di dati originali sono soggetti a tempo:

p(xiti)p(xi)

xi={xi,ti}

p(xiti)=p(xi)

... e ora i campioni di dati sono reciprocamente indipendenti.

In pratica, includendo il tempo come caratteristica in ciascun punto dati, PCA potrebbe avere come risultato che un componente punta semplicemente lungo l'asse della caratteristica temporale. Ma se qualche funzione è correlata alla funzione tempo, un componente potrebbe essere costituito da una o più di queste funzioni, nonché dalla funzione tempo.


1
Grazie per la risposta. Sarebbe un caso molto speciale in cui il tempo entra in modo lineare. Un fenomeno più diffuso è, ad esempio, l'autocorrelazione in cui il tempo stesso non svolge un ruolo come caratteristica.
Richard Hardy,

xtθxt1xtxt1θxt1

xt1
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.