In che modo il PCA sparso è meglio del PCA?


24

Ho appreso della PCA alcune lezioni fa in classe e approfondendo questo affascinante concetto, ho imparato a conoscere la PCA sparsa.

Volevo chiederti, se non sbaglio, questo è ciò che è un PCA scarso: in PCA, se hai punti di dati con variabili , puoi rappresentare ogni punto di dati nello spazio dimensionale prima di applicare PCA. Dopo aver applicato il PCA, è possibile rappresentarlo nuovamente nello stesso spazio dimensionale, ma, questa volta, il primo componente principale conterrà la maggiore varianza, il secondo conterrà la seconda direzione con più varianza e così via. Quindi puoi eliminare gli ultimi componenti principali, poiché non causeranno molta perdita di dati e puoi comprimere i dati. Destra?pnpp

PCA sparsa sta selezionando i componenti principali in modo tale che questi contengano meno valori diversi da zero nei loro coefficienti vettoriali.

In che modo ciò dovrebbe aiutarti a interpretare meglio i dati? Qualcuno può fare un esempio?


Ciao @GrowinMan! Hai visto la mia risposta a questa domanda? Pensi che risponda? In caso contrario, non esitare a chiedere chiarimenti o forse prendere in considerazione la modifica della domanda per renderla più precisa. Se sì, allora considera l'upgrade e "accettandolo" facendo clic su un segno di spunta verde nelle vicinanze. Ho notato che hai zero voti e zero discussioni accettate qui su CrossValidated.
ameba dice Reinstate Monica il

@amoeba Grazie per averlo sottolineato. Non ho effettuato l'accesso per un po 'e sono anche un po' fuori dal mondo con l'apprendimento automatico.
Leggerò di

Nessun problema. Mi sono imbattuto per caso in questo vecchio filo e ho pensato di lasciarti andare.
ameba dice di reintegrare Monica il

Ciao @GrowinMan! :-) Mi sono imbattuto di nuovo in questo vecchio thread. Se ritieni che questa domanda non sia stata ancora risolta, non esitare a chiedere chiarimenti. Altrimenti, considera l'upgrade e "l'accettazione" di una delle risposte facendo clic su un segno di spunta verde nelle vicinanze. Ho notato che hai zero voti e zero discussioni accettate qui su CrossValidated.
ameba dice di reintegrare Monica il

Risposte:


29

La scarsa interpretazione della PCA sparsa rispetto alla PCA standard dipende dal set di dati che si sta esaminando. Ecco come ci penso: a volte uno è più interessato alle proiezioni PCA (rappresentazione dimensionale bassa dei dati), e talvolta - agli assi principali; è solo in quest'ultimo caso che l'APA sparsa può avere qualche vantaggio per l'interpretazione. Vorrei fare un paio di esempi.

Ad esempio, sto lavorando con dati neurali (registrazioni simultanee di molti neuroni) e sto applicando PCA e / o tecniche di riduzione della dimensionalità correlate per ottenere una rappresentazione a bassa dimensione dell'attività della popolazione neuronale. Potrei avere 1000 neuroni (ovvero i miei dati vivono in uno spazio di 1000 dimensioni) e vorrei proiettarli sui tre assi principali principali. Che cosa siano questi assi, è del tutto irrilevante per me, e non ho intenzione di "interpretare" questi assi in alcun modo. Ciò che mi interessa è la proiezione 3D (poiché l'attività dipende dal tempo, ottengo una traiettoria in questo spazio 3D). Quindi sto bene se ogni asse ha tutti i 1000 coefficienti diversi da zero.

D'altra parte, qualcuno potrebbe lavorare con dati più "tangibili", in cui le dimensioni individuali hanno un significato ovvio (a differenza dei singoli neuroni sopra). Ad esempio un set di dati di varie auto, in cui le dimensioni variano dal peso al prezzo. In questo caso si potrebbe effettivamente essere interessati ai principali assi principali stessi, perché si potrebbe voler dire qualcosa: guarda, il 1 ° asse principale corrisponde alla "fantasia" della macchina (lo sto inventando totalmente ora). Se la proiezione è scarsa, tali interpretazioni sarebbero generalmente più facili da dare, perché molte variabili avranno coefficienti e quindi sono ovviamente irrilevanti per questo particolare asse. Nel caso della PCA standard, si ottengono solitamente coefficienti diversi da zero per tutte le variabili.0

Puoi trovare altri esempi e alcune discussioni su quest'ultimo caso nel documento Sparse PCA del 2006 di Zou et al. La differenza tra il primo e il secondo caso, tuttavia, non ho visto esplicitamente discusso da nessuna parte (anche se probabilmente lo era).


3
Questa è stata un'ottima spiegazione. Un altro esempio dei tuoi dati "tangibili" potrebbe essere un sondaggio con molte domande e vuoi sapere quali domande sul sondaggio sono più importanti e forse una combinazione di esse sta davvero ponendo domande su un argomento.
bdeonovic,

1

Quindi puoi eliminare gli ultimi componenti principali, poiché non causeranno molta perdita di dati e puoi comprimere i dati. Destra?

NV1,V2,,VNNPC1,PC2,,PCNVioPCio

PCioVj,Vl,

(PCio,PCj)N


Come!? Non vedo come sarebbe facile interpretare in questo caso al contrario di quando i componenti principali non sono radi.
GrowinMan,

2
Il modo in cui penso a questo è che spesso facciamo clustering variabile prima del PC per rendere i risultati più interpretabili. Sparse PC combina clustering variabile e PC in un unico passaggio, richiedendo meno decisioni da parte dell'analista.
Frank Harrell,

1

Per comprendere i vantaggi della scarsità in PCA, è necessario assicurarsi di conoscere la differenza tra "caricamenti" e "variabili" (per me questi nomi sono in qualche modo arbitrari, ma non è importante).

Supponi di avere una matrice di dati nxp X , dove n è il numero di campioni. L'SVD di X = USV ' , ti dà tre matrici. La combinazione dei primi due Z = US ti dà la matrice dei componenti principali. Supponiamo che il tuo grado ridotto sia k , quindi Z sia nxk . Z è essenzialmente la tua matrice di dati dopo la riduzione dimensionale. storicamente,

Le voci dei componenti principali (aka Z = US ) sono chiamate variabili.

D'altra parte, V (che è pxk ) contiene i Vettori di caricamento principali e le sue voci sono chiamate caricamenti principali. Date le proprietà di PCA, è facile dimostrare che Z = XV . Ciò significa che:

I componenti principali sono derivati in base alle sollecitazioni principali come coefficienti di una combinazione lineare di matrice dei dati X .

Ora che queste definizioni sono fuori mano, esamineremo la scarsità. La maggior parte dei documenti (o almeno la maggior parte che ho incontrato), impone la scarsità sui caricamenti principali (aka V ). Il vantaggio della scarsità è quello

una V sparsa ci dirà quali variabili (dallo spazio caratteristica p -dimensionale originale ) vale la pena conservare. Questo si chiama interpretabilità.

Ci sono anche interpretazioni per far applicare la scarsità alle voci di Z , che ho visto la gente chiamare "PCA variabile sparsa" ", ma è molto meno popolare e ad essere sincero non ci ho pensato molto.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.