PCA di dati non gaussiani

20

Ho un paio di domande rapide su PCA:

Il PCA presume che il set di dati sia gaussiano?
Cosa succede quando applico un PCA a dati intrinsecamente non lineari?

Dato un set di dati, il processo consiste innanzitutto nel normalizzare la media, impostare la varianza su 1, prendere un SVD, ridurre il rango e infine mappare il set di dati nel nuovo spazio di rango ridotto. Nel nuovo spazio, ogni dimensione corrisponde a una "direzione" di massima varianza.

Ma la correlazione di quel set di dati nel nuovo spazio è sempre zero o è vera solo per i dati intrinsecamente gaussiani?

Supponiamo che io abbia due set di dati, "A" e "B", dove "A" corrisponde a punti campionati casualmente presi da un gaussiano, mentre "B" corrisponde a punti campionati casualmente da un'altra distribuzione (diciamo Poisson).

Come si confronta la PCA (A) con la PCA (B)?
Osservando i punti nel nuovo spazio, come potrei determinare che il PCA (A) corrisponde ai punti campionati da un gaussiano, mentre il PCA (B) corrisponde ai punti campionati da un Poisson?
La correlazione dei punti in "A" è 0?
Anche la correlazione dei punti in "B" è 0?
Ancora più importante, sto ponendo la domanda "giusta"?
Dovrei guardare la correlazione o c'è un'altra metrica che dovrei considerare?

pca svd

— Vishal
fonte

2

Vedi l'appendice sulle ipotesi di PCA in questo documento .

— assunto normale l'

17

Hai già un paio di buone risposte qui (+1 a entrambi @ Cam.Davidson.Pilon e @MichaelChernick). Consentitemi di illustrare un paio di punti che mi aiutano a pensare a questo problema.

In primo luogo, PCA opera sulla matrice di correlazione. Quindi, mi sembra che la domanda importante sia se ha senso usare una matrice di correlazione per aiutarti a pensare ai tuoi dati. Ad esempio, la correlazione prodotto-momento di Pearson valuta la relazione lineare tra due variabili; se le variabili sono correlate, ma non in modo lineare, la correlazione non è una metrica ideale per indicizzare la forza della relazione. ( Ecco una bella discussione sul CV sulla correlazione e dati non normali.)

Secondo, penso che il modo più semplice per capire cosa sta succedendo con la PCA è che stai semplicemente ruotando gli assi. Puoi fare più cose, ovviamente, e purtroppo la PCA viene confusa con l' analisi dei fattori (che sicuramente ha più successo). Tuttavia, il semplice vecchio PCA senza campane e fischietti può essere pensato come segue:

hai dei punti tracciati in due dimensioni su un foglio di carta millimetrata;
hai una trasparenza con assi ortogonali disegnati su di esso e un foro stenopeico all'origine;
centrate l'origine della trasparenza (cioè il foro stenopeico) su e mettete la punta della matita attraverso il foro stenopeico per tenerlo in posizione; $(\bar x, \bar y)$
quindi si ruota la trasparenza fino a quando i punti (quando indicizzati in base agli assi della trasparenza anziché a quelli originali) non sono correlati.

Questa non è una metafora perfetta per PCA (ad esempio, non abbiamo ridimensionato le variazioni a 1). Ma dà alla gente l'idea di base. Il punto è ora di usare quell'immagine per pensare a come appare il risultato se i dati non fossero gaussiani per cominciare; ciò ti aiuterà a decidere se vale la pena fare questo processo. Spero possa aiutare.

— gung - Ripristina Monica
fonte

2

+1 (molto tempo fa). Penso che questa sia la migliore risposta in questo thread, spero che raccolga un altro voto per diventare anche il più votato. Mi piace il tuo modo di spiegare la PCA con trasparenza, è bello.

— ameba dice di reintegrare Monica il

A proposito, questa tua risposta ha ispirato la mia recente risposta nel nostro enorme thread PCA laico: ho realizzato quelle gif animate tenendo presente la tua analogia di trasparenza.

— ameba dice Ripristina Monica il

È un'ottima risposta, @amoeba. È molto meglio di così.

— gung - Ripristina Monica

13

Posso dare una soluzione parziale e mostrare una risposta per la tua ~~secondo paragrafo~~terza domanda, relativa alla correlazione dei nuovi dati. La risposta breve è no, i dati nel nuovo spazio non sono correlati. Per vedere, considera e come due componenti principali univoci. Poi e sono due dimensioni nel nuovo spazio dei dati, . $w_1$ $w_2$ $Xw_1$ $Xw_2$ $X$

C o v (X w_{1}, X w_{2}) = E [(X w_{1})^{T} (X w_{2})] - E [X w_{1}]^{T} E [X w_{2}]

${\rm Cov}( Xw_1, Xw_2 ) = E[ (Xw_1)^T(Xw_2) ] - E[Xw_1]^TE[Xw_2]$

w_{i}

$w_i$

X

$X$

w_{1}^{T} E [X^{T} X] w_{2} = V a r (X) w_{1}^{T} w_{2} = 0

$w_1^TE[X^TX]w_2 = {\rm Var}(X)w_1^Tw_2 = 0$

w_{i}

$w_i$

V a r (X)

$Var(X)$

$X$ $Xw$ $X$ $Xw$

$\alpha$

— Cam.Davidson.Pilon
fonte

7

Non vi è alcuna linearità o normalità assunta nel PCA. L'idea è solo di scomporre la variazione di un set di dati p-dimensionale in componenti ortogonali ordinati in base alla quantità di varianza spiegata.

— Michael R. Chernick
fonte

2

Vero ma "scomporre la variazione di un set di dati p-dimensionale in componenti ortogonali" non è molto utile quando vi sono dipendenze non lineari tra le variabili poiché l'ortogonalizzazione è stata di solito eseguita in modo da poter sostenere che le dimensioni non sono correlate (che è anche in relazione alla parte gaussiana della domanda). Quando si esegue la PCA e si prevede di interpretare i risultati nel solito modo, si presume che i dati vivano in un sottospazio lineare di dimensioni inferiori .

— Macro,

2

@Macro Non esattamente. Direi che il presupposto di base è che almeno la maggior parte della variabilità e quindi il modello dei dati è concentrato in uno spazio dimensionale inferiore. Riesco a vedere molto bene una parabola in uno spazio bidimensionale con componenti ortogonali. Penso che le forme non lineari possano essere visualizzate in due o tre dimensioni. Se i dati provengono da una distorsione gaussiana multivariata, in alcuni sottospazi i punti dovrebbero apparire come una nuvola ellissoidale. La distribuzione non deve apparire come un ellissoide perché la sua vista nel sottospazio dei PC alti sia interessante.

— Michael R. Chernick, l'

4

Lo qualificherei leggermente. Non vi è alcuna ipotesi di normalità nella classica PCA o PCA da parte di SVD. Tuttavia, gli algoritmi EM per calcolare PCA con dati mancanti assumeranno normalità e linearità.

— Giovanni

Mentre la strada classica verso la PCA non ha bisogno di ipotesi, c'è un'altra strada per la sua soluzione che fa: PCA probabilistico con rumore di misura 0.

— Bayerj,

3

Leggendo la pagina 7 qui:

http://www.cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf

notano che PCA presume che la distribuzione di qualunque cosa stiamo spiegando possa essere descritta da una media (pari a zero) e dalla sola varianza, che secondo loro può essere solo la distribuzione normale.

(Fondamentalmente oltre alla risposta di Cam, ma non ho abbastanza reputazione per commentare:)

— user3264325
fonte

1

Il link fornito al tutorial di Shlens è alla versione 1 del tutorial, ma la versione 3.02 (la versione finale?) È ora disponibile e questo punto specifico è stato rimosso. Inoltre, questa domanda ha fatto esattamente questo.

— Oren Milman,

0

Per quanto ne so, PCA non assume la normalità dei dati. Ma se è normalmente distribuito (in senso più generale, distribuito simmetricamente), il risultato è più robusto. Come altri dicono, la chiave è che la PCA si basa sulla matrice del coefficiente di correlazione di Pearson, la cui stima è influenzata da valori anomali e dalla distribuzione distorta. Quindi in alcune analisi coinvolte, come test statistici o valore p, dovresti preoccuparti di più se la normalità è soddisfatta; ma in altre applicazioni come l'analisi esplorativa, puoi usarla ma fai attenzione quando fai delle interpretazioni.

— KarlHuang
fonte

-1

D'accordo con altri che hanno affermato che i dati dovrebbero essere "normalmente" distribuiti. Qualsiasi distribuzione si sovrapporrà a una distribuzione normale se la trasformi. Se la tua distribuzione non è normale, i risultati che otterrai saranno inferiori rispetto al caso in cui è normale, come affermato da alcuni qui ...

Puoi trasformare la tua distribuzione se ne hai bisogno.
Puoi optare per il PCA e utilizzare invece Independent Component Analysis (ICA).

Se leggi il riferimento nella prima risposta, nella sezione Appendice indica che l'assunzione è una distribuzione normale.

— Cenere
fonte