Perché la PCA è sensibile ai valori anomali?


26

Ci sono molti post su questo SE che discutono di solidi approcci all'analisi dei componenti principali (PCA), ma non riesco a trovare una sola buona spiegazione del perché il PCA sia sensibile agli outlier in primo luogo.


5
Perché il contributo della norma L2 è molto alto per gli outlier. Quindi, quando si minimizza la norma L2 (che è ciò che la PCA cerca di fare), quei punti tireranno più forte per adattarsi rispetto ai punti più vicini alla volontà media.
matematico

Risposte:


35

Uno dei motivi è che la PCA può essere considerata una decomposizione di basso livello dei dati che minimizza la somma delle norme L2 dei residui della decomposizione. Cioè se Y sono i tuoi dati ( m vettori di n dimensioni) e X è la base PCA ( K vettori di n dimensioni), la decomposizione minimizzerà rigorosamente

Y-XUNF2=Σj=1mYj-XUNj.2
Qui UN è la matrice dei coefficienti di decomposizione PCA e F è una norma di Frobenius della matrice

Poiché il PCA minimizza le norme L2 (cioè le norme quadratiche) ha gli stessi problemi di minimi quadrati o adattamento di un gaussiano essendo sensibile ai valori anomali. A causa della quadratura delle deviazioni dagli outlier, domineranno la norma totale e quindi guideranno i componenti PCA.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.