Ho un paio di domande rapide su PCA:
- Il PCA presume che il set di dati sia gaussiano?
- Cosa succede quando applico un PCA a dati intrinsecamente non lineari?
Dato un set di dati, il processo consiste innanzitutto nel normalizzare la media, impostare la varianza su 1, prendere un SVD, ridurre il rango e infine mappare il set di dati nel nuovo spazio di rango ridotto. Nel nuovo spazio, ogni dimensione corrisponde a una "direzione" di massima varianza.
- Ma la correlazione di quel set di dati nel nuovo spazio è sempre zero o è vera solo per i dati intrinsecamente gaussiani?
Supponiamo che io abbia due set di dati, "A" e "B", dove "A" corrisponde a punti campionati casualmente presi da un gaussiano, mentre "B" corrisponde a punti campionati casualmente da un'altra distribuzione (diciamo Poisson).
- Come si confronta la PCA (A) con la PCA (B)?
- Osservando i punti nel nuovo spazio, come potrei determinare che il PCA (A) corrisponde ai punti campionati da un gaussiano, mentre il PCA (B) corrisponde ai punti campionati da un Poisson?
- La correlazione dei punti in "A" è 0?
- Anche la correlazione dei punti in "B" è 0?
- Ancora più importante, sto ponendo la domanda "giusta"?
- Dovrei guardare la correlazione o c'è un'altra metrica che dovrei considerare?