I componenti PCA dei dati gaussiani multivariati sono statisticamente indipendenti?

I componenti PCA (nell'analisi dei componenti principali) sono statisticamente indipendenti se i nostri dati sono multivariati normalmente distribuiti? In tal caso, come può essere dimostrato / provato?

Lo chiedo perché ho visto questo post , in cui la risposta principale afferma:

PCA non fa un'ipotesi esplicita di gaussianità. Trova gli autovettori che massimizzano la varianza spiegata nei dati. L'ortogonalità dei componenti principali significa che trova i componenti più non correlati per spiegare quante più variazioni possibili nei dati. Per le distribuzioni gaussiane multivariate, la correlazione zero tra i componenti implica indipendenza, il che non è vero per la maggior parte delle distribuzioni.

La risposta è dichiarata senza prove e sembra implicare che PCA produca componenti indipendenti se i dati sono normali multivariati.

In particolare, supponiamo che i nostri dati siano esempi di:

x \sim N (μ, Σ)

$\mathbf{x} \sim \mathcal N(\mathbf{\mu}, \mathbf{\Sigma})$

mettiamo campioni di nelle righe della nostra matrice di campioni , quindi è . Calcolo dei rendimenti SVD di (dopo il centraggio) dei rendimenti $n$ $\mathbf{x}$ $\mathbf{X}$ $\mathbf{X}$ $n \times m$ $\mathbf{X}$

X = {U S V}^{T}

$\mathbf{X} = \mathbf{USV}^{T}$

Possiamo dire che le colonne di sono statisticamente indipendenti, anche le righe di ? Questo è vero in generale, solo per o non è affatto vero? $\mathbf{U}$ $\mathbf{V}^T$ $\mathbf{x} \sim \mathcal N(\mathbf{\mu}, \mathbf{\Sigma})$

pca independence svd

— bill_e
fonte

stats.stackexchange.com/q/110508/3277 è una domanda simile.

— ttnphns,

Non vedo come i PC possano essere considerati "statisticamente indipendenti" in più di una dimensione. Dopotutto, per definizione ognuno è ortogonale a tutti gli altri; questa dipendenza funzionale crea una dipendenza statistica molto forte.

— whuber

@amoeba Spero di essere stato costantemente chiaro e fedele alla domanda, che trovo essere chiaramente e senza ambiguità: perché i dati

sono casuali, così sono tutte le voci in

. Ho applicato loro la definizione di indipendenza statistica. È tutto. Il tuo problema sembra essere che stai usando la parola "non correlata" in due sensi molto diversi senza apparentemente rendertene conto: in virtù di come sono costruite le colonne di

, sono geometricamente ortogonali come vettori in , ma non lo sono significa vettori casuali indipendenti!

X

$X$

U

$U$

U

$U$ $\mathbb{R}^n$

— whuber

@amoeba Hai ragione: la simulazione mostra in modo abbastanza convincente che la correlazione può essere (fortemente) diversa da zero. Tuttavia, non sto contestando che "i componenti PCA non sono correlati" nel senso di "correlazione" = "ortogonale", né sto dicendo che un particolare libro di testo sia errato. La mia preoccupazione è che una tale affermazione, correttamente compresa, sia così irrilevante per la domanda che tutto ciò che può (e ha fatto) seminare una grande confusione nel contesto attuale.

— whuber

@whuber, sono sicuro che non vedevi l'ora di ricevere un'altra edizione della mia risposta! Ecco qui. Riconosco esplicitamente i tuoi punti sulla dipendenza e dichiaro che le colonne di

sono asintoticamente indipendenti, come punto principale. Qui "asintoticamente" si riferisce al numero

di osservazioni (righe). Spero vivamente che saremo in grado di concordare su questo! Sostengo anche che per ogni ragionevole

, come

, la dipendenza tra le colonne è "praticamente irrilevante". Immagino che questo sia un punto più controverso, ma cerco di renderlo ragionevolmente preciso nella mia risposta.

U

$U$

n

$n$

n

$n$

n = 100

$n=100$

— ameba dice Ripristina Monica

Inizierò con una dimostrazione intuitiva.

Ho generato osservazioni (a) da una distribuzione 2D fortemente non gaussiana e (b) da una distribuzione gaussiana 2D. In entrambi i casi ho centrato i dati ed eseguito la decomposizione del valore singolare . Quindi per ogni caso ho creato un diagramma a dispersione delle prime due colonne di , una contro l'altra. Si noti che di solito sono colonne di chiamate "componenti principali" (PC); le colonne di sono PC ridimensionati per avere la norma unitaria; ancora, in questa risposta mi sto concentrando su colonne di . Ecco i grafici a dispersione: $n=100$ $\mathbf X=\mathbf{USV}^\top$ $\mathbf U$ $\mathbf{US}$ $\mathbf U$ $\mathbf U$

PCA of Gaussian and non-Gaussian data

Penso che affermazioni come "I componenti PCA non sono correlati" o "I componenti PCA sono dipendenti / indipendenti" di solito sono fatte su una matrice di campione specifica e si riferiscono alle correlazioni / dipendenze tra le righe (vedere ad esempio la risposta di @ ttnphns qui ). PCA produce una matrice di dati trasformata , dove le righe sono osservazioni e le colonne sono variabili PC. Cioè possiamo vedere come un campione e chiederci qual è la correlazione di esempio tra le variabili PC. Questa matrice di correlazione del campione è ovviamente data da $\mathbf X$ $\mathbf U$ $\mathbf U$ $\mathbf U^\top \mathbf U=\mathbf I$ , il che significa che le correlazioni di esempio tra le variabili PC sono zero. Questo è ciò che le persone intendono quando dicono che "PCA diagonalizza la matrice di covarianza", ecc.

Conclusione 1: nelle coordinate PCA, tutti i dati hanno correlazione zero.

Questo è vero per entrambi i grafici a dispersione sopra. Tuttavia, è immediatamente evidente che i due variabili PC ed sulla (non-Gaussiano) dispersione sinistra non sono indipendenti; anche se hanno una correlazione zero, sono fortemente dipendenti e in effetti correlati da a . E infatti, è noto che non correlato non significa indipendente $x$ $y$ $y\approx a(x-b)^2$ .

Al contrario, le due variabili PC e $x$ $y$ a destra (gaussiana) dispersione sembrano essere "più o meno indipendente". Il calcolo delle informazioni reciproche tra loro (che è una misura della dipendenza statistica: le variabili indipendenti hanno zero informazioni reciproche) con qualsiasi algoritmo standard produrrà un valore molto vicino a zero. Non sarà esattamente zero, perché non è mai esattamente zero per qualsiasi dimensione del campione finita (a meno che non sia messo a punto); inoltre, esistono vari metodi per calcolare le informazioni reciproche di due campioni, dando risposte leggermente diverse. Ma possiamo aspettarci che qualsiasi metodo fornirà una stima delle informazioni reciproche che è molto vicina allo zero.

Conclusione 2: nelle coordinate PCA, i dati gaussiani sono "praticamente indipendenti", il che significa che le stime standard della dipendenza saranno intorno allo zero.

La domanda, tuttavia, è più complicata, come dimostrato dalla lunga catena di commenti. Infatti, @whuber giustamente sottolinea che le variabili PCA ed (colonne di ) devono essere statisticamente dipendente: le colonne devono essere di lunghezza unitaria e devono essere ortogonali, e questo introduce una dipendenza. Ad esempio, se un valore nella prima colonna è uguale a , il valore corrispondente nella seconda colonna deve essere . $x$ $y$ $\mathbf U$ $1$ $0$

Questo è vero, ma è praticamente rilevante solo per molto piccolo , come ad esempio (con dopo la centratura c'è un solo PC). Per qualsiasi dimensione del campione ragionevole, come mostrato nella mia figura sopra, l'effetto della dipendenza sarà trascurabile; le colonne di sono proiezioni (ridimensionate) di dati gaussiani, quindi sono anche gaussiane, il che rende praticamente impossibile che un valore sia vicino a (ciò richiederebbe che tutti gli altri elementi siano vicini a , che è a malapena una distribuzione gaussiana). $n$ $n=3$ $n=2$ $n=100$ $\mathbf U$ $1$ $n-1$ $0$

Conclusione 3: a rigor di termini, per qualsiasi finito , i dati gaussiani nelle coordinate PCA dipendono; tuttavia, questa dipendenza è praticamente irrilevante per qualsiasi . $n$ $n\gg 1$

Possiamo renderlo preciso considerando ciò che accade nel limite di . Nel limite della dimensione infinita del campione, la matrice di covarianza del campione è uguale alla matrice di covarianza della popolazione . Quindi, se il vettore di dati viene campionato dal , allora le variabili sono PC (dove e $n \to \infty$ $\mathbf \Sigma$ $X$ $\vec X \sim \mathcal N(0,\boldsymbol \Sigma)$ $\vec Y = \Lambda^{-1/2}V^\top \vec X/(n-1)$ $\Lambda$ $V$ sono autovalori e autovettori di ) e . Cioè le variabili PC provengono da un gaussiano multivariato con covarianza diagonale. Ma qualsiasi gaussiano multivariato con matrice di covarianza diagonale si decompone in un prodotto di gaussiani univariati, e questa è la definizione di indipendenza statistica : $\boldsymbol \Sigma$ $\vec Y \sim \mathcal N(0, \mathbf I/(n-1))$

\begin{aligned} N (0, d i a g (σ_{i}^{2})) & = \frac{1}{(2 π)^{k / 2} det (d i a g (σ_{i}^{2}))^{1 / 2}} \exp [- x^{⊤} d i a g (σ_{i}^{2}) x / 2] \\ = \frac{1}{(2 π)^{k / 2} (\prod_{i = 1}^{k} σ_{i}^{2})^{1 / 2}} \exp [- \sum_{i = 1}^{k} σ_{i}^{2} x_{i}^{2} / 2] \\ = \prod \frac{1}{(2 π)^{1 / 2} σ_{i}} \exp [- σ_{i}^{2} x_{i}^{2} / 2] \\ = \prod N (0, σ_{i}^{2}) . \end{aligned}

$\begin{align} \mathcal N(\mathbf 0,\mathrm{diag}(\sigma^2_i)) &= \frac{1}{(2\pi)^{k/2} \det(\mathrm{diag}(\sigma^2_i))^{1/2}} \exp\left[-\mathbf x^\top \mathrm{diag}(\sigma^2_i) \mathbf x/2\right]\\&=\frac{1}{(2\pi)^{k/2} (\prod_{i=1}^k \sigma_i^2)^{1/2}} \exp\left[-\sum_{i=1}^k \sigma^2_i x_i^2/2\right] \\&=\prod\frac{1}{(2\pi)^{1/2}\sigma_i} \exp\left[-\sigma_i^2 x^2_i/2\right] \\&= \prod \mathcal N(0,\sigma^2_i). \end{align}$

Conclusione 4: le variabili PC asintoticamente ( ) dei dati gaussiani sono statisticamente indipendenti come variabili casuali e le informazioni reciproche del campione daranno zero valore alla popolazione. $n \to \infty$

Dovrei notare che è possibile comprendere questa domanda in modo diverso (vedi commenti di @whuber): considerare l'intera matrice una variabile casuale (ottenuta dalla matrice casuale tramite un'operazione specifica) e chiedere se due elementi specifici e da due diverse colonne sono statisticamente indipendenti tra i diversi attira di . Abbiamo esplorato questa domanda in questo thread successivo . $\mathbf U$ $\mathbf X$ $U_{ij}$ $U_{kl}$ $\mathbf X$

Ecco tutte e quattro le conclusioni intermedie dall'alto:

Nelle coordinate PCA, tutti i dati hanno correlazione zero.
Nelle coordinate PCA, i dati gaussiani sono "praticamente indipendenti", il che significa che le stime standard della dipendenza saranno intorno allo zero.
A rigor di termini, per qualsiasi finito , i dati gaussiani nelle coordinate PCA sono dipendenti; tuttavia, questa dipendenza è praticamente irrilevante per qualsiasi . $n$ $n\gg 1$
Le variabili PC asintoticamente ( ) dei dati gaussiani sono statisticamente indipendenti come variabili casuali e le informazioni reciproche del campione daranno zero valore alla popolazione. $n \to \infty$

— ameba dice Reinstate Monica
fonte

Scrivi "Tuttavia, se i dati sono gaussiani multivariati, allora sono effettivamente indipendenti". "Loro" sono i componenti principali e i loro coefficienti? Cosa intendi con PCA diagonale alla matrice di covarianza? Grazie per la vostra risposta!

— bill_e

"Loro" si riferisce ai componenti principali (che sono proiezioni dei dati sulle direzioni della varianza massima). PCA cerca le direzioni della varianza massima; risulta che queste direzioni sono date dagli autovettori della matrice di covarianza. Se cambiate le coordinate in "coordinate PCA", la matrice di covarianza sarà diagonale, ecco come funziona la composizione elettronica. Allo stesso modo, la matrice

nella SVD dalla tua domanda è una matrice diagonale. Inoltre, la matrice

è ortogonale, il che significa che la sua matrice di covarianza è diagonale. Tutto ciò significa che i PC hanno una correlazione zero.

S

$S$

U

$U$

— ameba dice di reintegrare Monica il

Bene, grazie! La combinazione della tua risposta e di questo commento mi aiuta a chiarire molto le cose. Posso modificare il tuo commento nella tua risposta?

— bill_e

Ho ampliato la risposta incorporando il commento; vedi se ne sei felice adesso.

— ameba dice di reintegrare Monica il

Discussione interessante! Quando ho posto la domanda, il mio pensiero sulla dipendenza statistica era "se conosci PC1, è possibile inferire PC2 ?, ecc." Ora esaminerò più i test di indipendenza basati su informazioni reciproche.

— bill_e