Ci sono molti post su questo SE che discutono di solidi approcci all'analisi dei componenti principali (PCA), ma non riesco a trovare una sola buona spiegazione del perché il PCA sia sensibile agli outlier in primo luogo.
Ci sono molti post su questo SE che discutono di solidi approcci all'analisi dei componenti principali (PCA), ma non riesco a trovare una sola buona spiegazione del perché il PCA sia sensibile agli outlier in primo luogo.
Risposte:
Uno dei motivi è che la PCA può essere considerata una decomposizione di basso livello dei dati che minimizza la somma delle norme dei residui della decomposizione. Cioè se sono i tuoi dati ( vettori di dimensioni) e è la base PCA ( vettori di dimensioni), la decomposizione minimizzerà rigorosamente
Poiché il PCA minimizza le norme (cioè le norme quadratiche) ha gli stessi problemi di minimi quadrati o adattamento di un gaussiano essendo sensibile ai valori anomali. A causa della quadratura delle deviazioni dagli outlier, domineranno la norma totale e quindi guideranno i componenti PCA.