In primo luogo, penso che la correlazione e lo sbiancamento siano due procedure separate.
Per de-correlare i dati, dobbiamo trasformarli in modo che i dati trasformati abbiano una matrice di covarianza diagonale. Questa trasformazione può essere trovata risolvendo il problema degli autovalori. Troviamo gli autovettori e gli autovalori associati della matrice di covarianza risolvendoΣ = X X'
Σ Φ = Φ Λ
dove è una matrice diagonale con gli autovalori come elementi diagonali.Λ
La matrice diagonalizes così la matrice di covarianza di X . Le colonne di Φ sono gli autovettori della matrice di covarianza.ΦXΦ
Possiamo anche scrivere la covarianza diagonale come:
Φ′ΣΦ=Λ(1)
Quindi per correlare un singolo vettore , facciamo:xi
x∗i=Φ′xi(2)
Gli elementi diagonali (autovalori) in possono essere uguali o diversi. Se li facciamo tutti uguali, allora questo si chiama sbiancamento dei dati. Poiché ogni autovalore determina la lunghezza del suo autovettore associato, la covarianza corrisponderà a un'ellisse quando i dati non sono sbiancati e a una sfera (che ha tutte le dimensioni della stessa lunghezza o uniforme) quando i dati sono sbiancati. Lo sbiancamento viene eseguito come segue:Λ
Λ−1/2ΛΛ−1/2=I
(1)
Λ−1/2Φ′ΣΦΛ−1/2=I
x∗ix†i
x†i=Λ−1/2x∗i=Λ−1/2Φ′xi(3)
x†ix†iE(x†ix†i′)=I
Σ
E infine, c'è un "gotcha" comune che le persone dovrebbero fare attenzione. Bisogna fare attenzione a calcolare i fattori di ridimensionamento sui dati di allenamento , quindi utilizzare le equazioni (2) e (3) per applicare gli stessi fattori di ridimensionamento ai dati di test, altrimenti si corre il rischio di overfitting (si utilizzerà informazioni dal set di test nel processo di formazione).
Fonte: http://courses.media.mit.edu/2010fall/mas622j/whiten.pdf