Usiamo solitamente PCA come tecnica di riduzione della dimensionalità per i dati in cui si presume che i casi siano considerati
Domanda: Quali sono le sfumature tipiche dell'applicazione del PCA per dati dipendenti e non iid? Quali proprietà utili / utili di PCA che detengono per i dati iid sono compromesse (o completamente perse)?
Ad esempio, i dati potrebbero essere una serie temporale multivariata, nel qual caso ci si potrebbe aspettare un'auto-correlazione o un'eteroschedasticità condizionale autoregressiva (ARCH).
Diverse domande correlate sull'applicazione dell'APC ai dati delle serie temporali sono state poste prima, ad esempio 1 , 2 , 3 , 4 , ma sto cercando una risposta più generale e completa (senza la necessità di espandere molto su ogni singolo punto).
Modifica: come notato da @ttnphns, lo stesso PCA non è un'analisi inferenziale. Tuttavia, si potrebbe essere interessati alle prestazioni di generalizzazione dell'APC, ovvero concentrandosi sulla controparte della popolazione dell'APC campione. Ad esempio, come scritto in Nadler (2008) :
Supponendo che i dati forniti siano un campione finito e casuale di una distribuzione (generalmente sconosciuta), una domanda teorica e pratica interessante è la relazione tra i risultati del PCA campione calcolati da dati finiti e quelli del modello di popolazione sottostante.
Riferimenti:
- Nadler, Boaz. "Risultati di approssimazione del campione finito per l'analisi dei componenti principali: un approccio di perturbazione della matrice." The Annals of Statistics (2008): 2791-2817.