Come sbiancare i dati utilizzando l'analisi dei componenti principali?


18

Voglio trasformare i miei dati X tale che le varianze saranno una e le covarianze saranno zero (cioè voglio sbiancare i dati). Inoltre, i mezzi dovrebbero essere zero.

So che ci arriverò facendo la standardizzazione Z e la trasformazione PCA, ma in quale ordine dovrei farlo?

Aggiungo che la trasformazione sbiancante composta dovrebbe avere la forma .XWX+B

Esiste un metodo simile al PCA che fa esattamente entrambe queste trasformazioni e mi dà una formula del modulo sopra?


(Il mio primo commento si basava sulla lettura errata della tua domanda.) PCA ti dà zero covarianze; puoi standardizzare i PC in seguito, se lo desideri. Sembra una cosa strana da fare, ma puoi farlo.
Nick Cox,

@NickCox Forse sembra strano perché i dati trasformati sono quindi sferici, il che sembra non informativo. Tuttavia, è la trasformazione che devo conoscere e non il risultato finale. Tuttavia non so come sarebbe la trasformazione. Sto ancora leggendo su PCA, comunque.
Angelorf,

Risposte:


31

Innanzitutto, ottieni lo zero medio sottraendo la media μ=1NΣX .

In secondo luogo, ottieni le covarianze zero facendo PCA. Se è la matrice di covarianza dei tuoi dati, allora PCA equivale a eseguire una composizione elettronica , dove è una matrice di rotazione ortogonale composta da autovettori di e è una matrice diagonale con autovalori sulla diagonale. Matrix fornisce una rotazione necessaria per de-correlare i dati (ovvero associa le caratteristiche originali ai componenti principali).ΣΣ=UΛUUΣΛU

Terzo, dopo la rotazione ogni componente avrà varianza data da un autovalore corrispondente. Quindi, per rendere le variazioni pari a , è necessario dividere per la radice quadrata di .1Λ

Tutti insieme, la trasformazione sbiancante è . Puoi aprire le parentesi per ottenere il modulo che stai cercando.XΛ-1/2U(X-μ)


Aggiornare. Vedi anche questa discussione successiva per maggiori dettagli: qual è la differenza tra lo sbiancamento ZCA e lo sbiancamento PCA?


2
Penso che devi dividere per le radici quadrate degli autovalori, in quanto si tratta di ridimensionare per SD, non per varianza.
Nick Cox,

@NickCox: sì, certo che hai ragione. Ho corretto la mia risposta. Grazie!
ameba dice Ripristina Monica il

1
Ho verificato empiricamente la formula. Grazie per aiutarmi!
Angelorf,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.