A quante dimensioni ridurre quando si fa PCA?


12

Come scegliere K per PCA? K è il numero di dimensioni su cui proiettare. L'unico requisito è non perdere troppe informazioni. Capisco che dipende dai dati, ma sto cercando di più una semplice panoramica generale su quali caratteristiche considerare quando si sceglie K.


Dipende dalla perdita di dati tollerabile e anche dalla dichiarazione del problema!
Dawny33

Sono d'accordo con le due risposte di seguito. Tuttavia, sai che esiste un modo semplice per quantificare la perdita di informazioni, ovvero utilizzando la diagonale di SVD della matrice di covarianza?
yuqian,

Risposte:


13

Dopo aver eseguito l'algoritmo PCA, ottieni i componenti principali, ordinati in base alla quantità di informazioni in loro possesso. Se si mantiene l'intero set non si perdono informazioni. Rimuovendoli uno per uno e proiettandoli nello spazio originale, è possibile calcolare la perdita di informazioni. È possibile tracciare questa perdita di informazioni rispetto al numero di componenti principali rimossi e vedere se ha un "gomito" dove ha senso. Molto dipende dal caso d'uso.


(+1) Sì, così semplice :)
Dawny33

3

Normalmente controllo la percentuale delle informazioni detenute dal valore K. Diciamo che su 8 campi, 2 di questi contengono il 90% delle informazioni. Quindi non ha senso includere gli altri 6 o 5 campi. Se conosci i dati di mnist, su 768 input, ho usato solo 250, che ha aumentato la mia precisione dall'83 al 96%. Il fatto è che più dimensionalità porta più problemi. Quindi tagliarli. Di solito prendo solo K che detiene solo il 90% delle informazioni e funziona per me.


Ciao .. Ho un problema simile in cui mi piacerebbe usare x% di informazioni e non sai come fare? Ho intenzione di utilizzare l' IPCA per fare ciò. Posso lasciare n_components = None ma come faccio a decidere quali sono le funzionalità che hanno x% dei dati?
Arsenal Fanatic,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.