Mi sono imbattuto in uno scenario in cui ho 10 segnali / persona per 10 persone (quindi 100 campioni) contenenti 14000 punti dati (dimensioni) che devo passare a un classificatore. Vorrei ridurre la dimensionalità di questi dati e PCA sembra essere il modo per farlo. Tuttavia, sono stato in grado di trovare solo esempi di PCA in cui il numero di campioni è maggiore del numero di dimensioni. Sto usando un'applicazione PCA che trova i PC usando SVD. Quando passo il mio set di dati 100x14000, vengono restituiti 101 PC, quindi la stragrande maggioranza delle dimensioni viene ovviamente ignorata. Il programma indica che i primi 6 PC contengono il 90% della varianza.
È ragionevole supporre che questi 101 PC contengano essenzialmente tutta la varianza e che le dimensioni rimanenti siano trascurabili?
Uno degli articoli che ho letto afferma che, utilizzando un set di dati simile (anche se leggermente inferiore) del mio, sono stati in grado di ridurre 4500 dimensioni fino all'80 mantenendo il 96% delle informazioni originali. La carta ondeggia sui dettagli della tecnica PCA utilizzata, erano disponibili solo 3100 campioni e ho motivo di ritenere meno campioni di quelli utilizzati per eseguire effettivamente il PCA (per rimuovere la distorsione dalla fase di classificazione).
Mi sto perdendo qualcosa o è davvero il modo in cui il PCA viene utilizzato con un set di dati ad alta dimensionalità e dimensioni ridotte del campione? Qualsiasi commento sarebbe molto apprezzato.