Funzione obiettivo PCA: qual è la connessione tra massimizzare la varianza e minimizzare l'errore?

L'algoritmo PCA può essere formulato in termini di matrice di correlazione (supponiamo che i dati $X$ già stati normalizzati e stiamo considerando solo la proiezione sul primo PC). La funzione obiettivo può essere scritta come:

max_{w} (X w)^{T} (X w) st w^{T} w = 1.

$\max_w (Xw)^T(Xw)\; \: \text{s.t.} \: \:w^Tw = 1.$

Questo va bene, e usiamo moltiplicatori lagrangiani per risolverlo, cioè riscrivendolo come:

max_{w} [(X w)^{T} (X w) - λ w^{T} w],

$\max_w [(Xw)^T(Xw) - \lambda w^Tw],$

che equivale a

max_{w} \frac{(X w)^{T} (X w)}{w^{T} w},

$\max_w \frac{ (Xw)^T(Xw) }{w^Tw},$

e quindi ( vedi qui su Mathworld ) sembra essere uguale a

max_{w} Σ_{io = 1}^{n} {(distanza dal punto X_{io} alla linea w)}^{2} .

$\max_w \sum_{i=1}^n \text{(distance from point $x_i$ to line $w$)}^2.$

Ma questo sta dicendo per massimizzare la distanza tra punto e linea, e da quello che ho letto qui , questo non è corretto - dovrebbe essere , non . Dov'è il mio errore? $\min$ $\max$

Oppure qualcuno può mostrarmi il legame tra massimizzare la varianza nello spazio proiettato e minimizzare la distanza tra punto e linea?

pca optimization

— Cam.Davidson.Pilon
fonte

Penso che la distanza minima venga utilizzata per soddisfare il criterio di ortogonalità per i componenti. I punti vengono proiettati nei PC che sono ortogonali tra loro ma in ogni componente successivo viene massimizzata la varianza rimanente.

— Michael R. Chernick,

Suggerimento: cosa succede quando si considera prima l'autovalore più piccolo , anziché il più grande?

— whuber

@whuber L'autovalore più piccolo ha probabilmente il PC che è la soluzione alla funzione obiettivo finale. Ma questo PC non massimizza la funzione obiettivo originale.

— Cam.Davidson.Pilon

Non sono sicuro di cosa intendi per funzione obiettivo "finale" e "originale", Cam. PCA non è (concettualmente) un programma di ottimizzazione. Il suo output è un insieme di direzioni principali, non solo una. È un (interessante) teorema matematico che queste direzioni possono essere trovate risolvendo una sequenza di programmi quadratici vincolati, ma questo non è basilare per i concetti o la pratica del PCA. Sto solo suggerendo che, concentrandosi sul più piccolo autovalore piuttosto che su quello più grande, è possibile conciliare le due idee di (1) minimizzare le distanze e (2) prendere una visione di ottimizzazione del PCA.

— whuber

Va bene - la tua risposta è stata la versione non sbagliata di quello che stavo cercando di fare.

— Cam.Davidson.Pilon

Sia una matrice di dati centrata con osservazioni in righe. Lascia che sia la sua matrice di covarianza. Sia un vettore unitario che specifica un asse nello spazio variabile. Vogliamo che sia il primo asse principale. $\newcommand{\X}{\mathbf X}\X$ $n$ $\newcommand{\S}{\boldsymbol \Sigma}\S=\X^\top\X/(n-1)$ $\newcommand{\w}{\mathbf w}\w$ $\w$

Secondo il primo approccio, il primo asse principale massimizza la varianza della proiezione (varianza del primo componente principale). Questa varianza è data da $\X \w$

V a r (X w) = w^{⊤} X^{⊤} X w / (n - 1) = w^{⊤} Σ w .

$\mathrm{Var}(\X\w)=\w^\top\X^\top \X \w/(n-1)=\w^\top\S\w.$

Secondo il secondo approccio, il primo asse principale minimizza l'errore di ricostruzione tra e la sua ricostruzione , ovvero la somma delle distanze al quadrato tra i punti originali e le loro proiezioni su . Il quadrato dell'errore di ricostruzione è dato da $\X$ $\X\w\w^\top$ $\w$

\begin{aligned} ‖ X - X w w^{⊤} ‖^{2} & = t r ((X - X w w^{⊤}) (X - X w w^{⊤})^{⊤}) \\ = t r ((X - X w w^{⊤}) (X^{⊤} - w w^{⊤} X^{⊤})) \\ = t r (X X^{⊤}) - 2 t r (X w w^{⊤} X^{⊤}) + t r (X w w^{⊤} w w^{⊤} X^{⊤}) \\ = c o n s t - t r (X w w^{⊤} X^{⊤}) \\ = c o n s t - t r (w^{⊤} X^{⊤} X w) \\ = c o n s t - c o n s t \cdot w^{⊤} Σ w . \end{aligned}

$\begin{align}\newcommand{\tr}{\mathrm{tr}} \|\X-\X\w\w^\top\|^2 &=\tr\left((\X-\X\w\w^\top)(\X-\X\w\w^\top)^\top\right) \\ &=\tr\left((\X-\X\w\w^\top)(\X^\top-\w\w^\top\X^\top)\right) \\ &=\tr(\X\X^\top)-2\tr(\X\w\w^\top\X^\top)+\tr(\X\w\w^\top\w\w^\top\X^\top) \\ &=\mathrm{const}-\tr(\X\w\w^\top\X^\top) \\ &=\mathrm{const}-\tr(\w^\top\X^\top\X\w) \\ &=\mathrm{const} - \mathrm{const} \cdot \w^\top \S \w. \end{align}$

Notare il segno meno prima del termine principale. Per questo motivo, ridurre al minimo l'errore di ricostruzione equivale a massimizzare , che è la varianza. Quindi minimizzare l'errore di ricostruzione equivale a massimizzare la varianza; entrambe le formulazioni producono lo stesso . $\w^\top \S \w$ $\w$

— ameba dice Reinstate Monica
fonte

Qualcosa che ho notato, non è una funzione convessa (rispetto a as è PSD? Come mai proviamo a massimizzarlo?

w^{T} Σ w

${w}^{T} \Sigma w$

w

$w$

Σ

$\Sigma$

— Royi

@amoeba puoi spiegare come passi da tr () a const nell'ultimo passaggio?

— Alberto

@alberto Cosa c'è dentro la traccia è un numero (matrice 1x1); una traccia di un numero è questo numero stesso, quindi la traccia può essere rimossa. La costante appare perché è uguale a , quindi esiste questo fattore .

Σ

$\Sigma$

X^{⊤} X / n

$X^\top X/n$

1 / n

$1/n$

— ameba dice di reintegrare Monica il

@Leullame Il calcolo conterrà testualmente per se si tratta di una matrice con colonne ortonormali. È necessario per passare dalla riga 3 alla riga 4. Se la matrice ha colonne ortonormali, allora sarà una proiezione di sul sottospazio attraversato dalle colonne di (qui è un vettore di riga).

W

$W$

W^{⊤} W = I

$W^\top W = I$

W

$W$

x W W^{⊤}

$xWW^\top$

x

$x$

W

$W$

x

$x$

— ameba dice di reintegrare Monica il

@ DanielLópez Bene, stiamo cercando un sottospazio monodimensionale che riduca al minimo l'errore di ricostruzione. Un sottospazio monodimensionale può essere definito da un vettore unit-norm che punta nella sua direzione, che è ciò che è considerato. Ha norma unitaria per costruzione.

w

$w$

— ameba dice di reintegrare Monica il