Qual è la funzione obiettiva di PCA?

L'analisi dei componenti principali può utilizzare la decomposizione della matrice, ma questo è solo uno strumento per arrivarci.

Come troveresti i componenti principali senza l'uso dell'algebra matriciale?

Qual è la funzione obiettivo (obiettivo) e quali sono i vincoli?

pca

— Neil McGuigan
fonte

Forse mi manca qualcosa, quindi per favore correggimi se sbaglio, ma dovrebbe essere possibile (almeno in linea di principio) costruire ciò che viene fatto in PCA usando le matrici come un (complicato) problema di programmazione lineare, ma non sapere come si dichiarerebbero tutti i vincoli richiesti. Inoltre non sono sicuro che sarebbe molto semplice da fare rispetto al semplice utilizzo di PCA. Perché stai cercando di evitare le matrici?

— Chris Simokat,

@Chris Non vedo come si possa arrivare a un problema di programmazione lineare. Non capivo neanche che le matrici dovessero essere evitate nel calcolo . La domanda era: che tipo di problema viene risolto da PCA e non come viene fatto (calcolando SVD per esempio). La soluzione del cardinale dice che trovi successive direzioni ortogonali di varianza massima . La soluzione che ho presentato dice che trovi iperpiani con un errore di ricostruzione minimo.

— NRH,

@chris Spero di trovare un altro modo per visualizzare la PCA, senza l'algebra matriciale, al fine di aumentare la mia comprensione di ciò.

— Neil McGuigan,

@Chris, hai una funzione quadratica dell'obiettivo e un vincolo di uguaglianza della norma . In alternativa, sotto la formulazione nella risposta di @ NRH, hai un vincolo di rango di matrice. Questo non si ridurrà a un problema di programmazione lineare. @NRH dà una buona intuizione e, in effetti, c'è una connessione molto stretta tra le due prospettive su PCA che sono state date. Forse in collaborazione con @NRH, possiamo aggiungerlo al suo post per rendere più completo l'intero set di risposte.

ℓ_{2}

$\ell_2$

— cardinale

@NRH, in realtà, mi piace molto ESL , ma penso che il trattamento di questo argomento sia piuttosto superficiale, come lo è per molti degli argomenti del libro. In particolare, non dimostrano (o addirittura assegnano come esercizio) la parte importante della soluzione per il problema di ottimizzazione che dai.

— cardinale

Risposte:

Senza cercare di fornire un primer completo su PCA, dal punto di vista dell'ottimizzazione, la funzione obiettivo principale è il quoziente di Rayleigh . La matrice che figura nel quoziente è (alcuni multipli di) la matrice di covarianza di esempio dove ogni è un vettore di caratteristiche e è la matrice tale che la esima riga è .

S = \frac{1}{n} \sum_{i = 1}^{n} x_{i} x_{i}^{T} = X^{T} X / n

$\newcommand{\m}[1]{\mathbf{#1}}\newcommand{\x}{\m{x}}\newcommand{\S}{\m{S}}\newcommand{\u}{\m{u}}\newcommand{\reals}{\mathbb{R}}\newcommand{\Q}{\m{Q}}\newcommand{\L}{\boldsymbol{\Lambda}} \S = \frac{1}{n} \sum_{i=1}^n \x_i \x_i^T = \m{X}^T \m{X} / n$

x_{i}

$\x_i$

p

$p$

X

$\m{X}$

i

$i$

x_{i}^{T}

$\x_i^T$

PCA cerca di risolvere una sequenza di problemi di ottimizzazione. Il primo nella sequenza è il problema non vincolato

\begin{array}{ll} maximize & \frac{u^{T} S u}{u^{T} u}, u \in R^{p} . \end{array}

$\begin{array}{ll} \text{maximize} & \frac{\u^T \S \u}{\u^T\u} \;, \u \in \reals^p \> . \end{array}$

Dato che, il suddetto problema non vincolato equivale al problema vincolato $\u^T \u = \|\u\|_2^2 = \|\u\| \|\u\|$

\begin{array}{ll} maximize & u^{T} S u \\ subject to & u^{T} u = 1 . \end{array}

$\begin{array}{ll} \text{maximize} & \u^T \S \u \\ \text{subject to} & \u^T \u = 1 \>. \end{array}$

Qui è dove entra in gioco l'algebra della matrice. Poiché è una matrice semidefinita positiva simmetrica (per costruzione!) Ha una decomposizione autovalore della forma dove è un matrice ortogonale (quindi ) e è una matrice diagonale con voci non tale che . $\S$

S = Q Λ Q^{T},

$\S = \Q \L \Q^T \>,$

Q

$\Q$

Q Q^{T} = I

$\Q \Q^T = \m{I}$

Λ

$\L$

λ_{i}

$\lambda_i$

λ_{1} \geq λ_{2} \geq \dots \geq λ_{p} \geq 0

$\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_p \geq 0$

Quindi, . Poiché è vincolato nel problema ad avere una norma di uno, allora lo è anche da , in virtù del fatto che è ortogonale. $\u^T \S \u = \u^T \Q \L \Q^T \u = \m{w}^T \L \m{w} = \sum_{i=1}^p \lambda_i w_i^2$ $\u$ $\m{w}$ $\|\m{w}\|_2 = \|\Q^T \u\|_2 = \|\u\|_2 = 1$ $\Q$

Ma, se vogliamo massimizzare la quantità sotto i vincoli che , il meglio che possiamo fare è impostare , ovvero e per . $\sum_{i=1}^p \lambda_i w_i^2$ $\sum_{i=1}^p w_i^2 = 1$ $\m{w} = \m{e}_1$ $w_1 = 1$ $w_i = 0$ $i > 1$

Ora, ritirando il corrispondente , che è quello che abbiamo cercato in primo luogo, otteniamo che dove denota la prima colonna di , cioè, l'autovettore corrispondente autovalore della . Anche il valore della funzione obiettivo può essere facilmente visualizzato come . $\u$

u^{⋆} = Q e_{1} = q_{1}

$\u^\star = \Q \m{e}_1 = \m{q}_1$

q_{1}

$\m{q}_1$

Q

$\Q$

S

$\S$

λ_{1}

$\lambda_1$

I restanti vettori dei componenti principali vengono quindi trovati risolvendo la sequenza (indicizzata da ) dei problemi di ottimizzazione Quindi, il problema è lo stesso, tranne per il fatto che aggiungiamo il vincolo aggiuntivo che la soluzione deve essere ortogonale a tutte le soluzioni precedenti nella sequenza. Non è difficile estendere l'argomento sopra induttivamente per dimostrare che la soluzione della esima problema è, infatti, , l' esimo autovettore . $i$

\begin{array}{ll} maximize & u_{i}^{T} S u_{i} \\ subject to & u_{i}^{T} u_{i} = 1 \\ u_{i}^{T} u_{j} = 0 \forall 1 \leq j < i . \end{array}

$\begin{array}{ll} \text{maximize} & \u_i^T \S \u_i \\ \text{subject to} & \u_i^T \u_i = 1 \\ & \u_i^T \u_j = 0 \quad \forall 1 \leq j < i\>. \end{array}$

i

$i$

q_{i}

$\m{q}_i$

i

$i$

S

$\S$

La soluzione PCA viene anche spesso espressa in termini di decomposizione del valore singolare di . Per vedere perché, lasciate . Quindi e così (a rigor di termini, fino a firmare i flip) e . $\m{X}$ $\m{X} = \m{U} \m{D} \m{V}^T$ $n \S = \m{X}^T \m{X} = \m{V} \m{D}^2 \m{V}^T$ $\m{V} = \m{Q}$ $\L = \m{D}^2 / n$

I componenti principali si trovano proiettando sui vettori dei componenti principali. Dalla formulazione SVD appena data, è facile vedere che $\m{X}$

X Q = X V = U D V^{T} V = U D .

$\m{X} \m{Q} = \m{X} \m{V} = \m{U} \m{D} \m{V}^T \m{V} = \m{U} \m{D} \> .$

La semplicità di rappresentazione dei vettori dei componenti principali e dei componenti principali stessi in termini di SVD della matrice di funzionalità è uno dei motivi per cui SVD è così importante in alcuni trattamenti di PCA.

— cardinale
fonte

Se sono necessari solo i primi valori / vettori singolari, Nash e Shlien forniscono un algoritmo che ricorda il solito metodo di alimentazione per il calcolo degli autovalori dominanti. Ciò può essere di interesse per il PO.

— JM non è uno statistico

@NRH, grazie per aver catturato (e corretto) i miei errori di battitura prima che riuscissi a vederli!

— cardinale

Ciao @cardinale, grazie per la tua risposta. Ma sembra che tu non abbia dato il passo per dimostrare perché l'ottimizzazione sequenziale porta ad un ottimale globale. Potresti per favore approfondire questo? Grazie!

— Lifu Huang,

La soluzione presentata dal cardinale si concentra sulla matrice di covarianza del campione. Un altro punto di partenza è l' errore di ricostruzione dei dati da parte di un iperpiano q- dimensionale. Se i punti di dati p -dimensionali sono l'obiettivo è risolvere $x_1, \ldots, x_n$

min_{μ, λ_{1}, \dots, λ_{n}, V_{q}} \sum_{i = 1}^{n} | | x_{i} - μ - V_{q} λ_{i} | |^{2}

$\min_{\mu, \lambda_1,\ldots, \lambda_n, \mathbf{V}_q} \sum_{i=1}^n ||x_i - \mu - \mathbf{V}_q \lambda_i||^2$

per una matrice con colonne ortonormali e . Ciò fornisce la migliore ricostruzione q di grado misurata dalla norma euclidea e le colonne della soluzione sono i primi vettori del componente principale q . $p \times q$ $\mathbf{V}_q$ $\lambda_i \in \mathbb{R}^q$ $\mathbf{V}_q$

Per risolto le soluzioni per e (questa è la regressione) sono $\mathbf{V}_q$ $\mu$ $\lambda_i$

μ = \bar{x} = \frac{1}{n} \sum_{i = 1}^{n} x_{i} λ_{i} = V_{q}^{T} (x_{i} - \bar{x})

$\mu = \overline{x} = \frac{1}{n}\sum_{i=1}^n x_i \qquad \lambda_i = \mathbf{V}_q^T(x_i - \overline{x})$

Per semplicità di notazione supponiamo che sia stato centrato nei seguenti calcoli. Dobbiamo quindi ridurre al minimo $x_i$

\sum_{i = 1}^{n} | | x_{i} - V_{q} V_{q}^{T} x_{i} | |^{2}

$\sum_{i=1}^n ||x_i - \mathbf{V}_q\mathbf{V}_q^T x_i||^2$

over con colonne ortonormali. Si noti che è la proiezione sullo spazio della colonna q- dimensionale. Quindi il problema equivale a minimizzare sopra rango q proiezioni . Cioè, dobbiamo massimizzare oltre le proiezioni di grado q , dove è la matrice di covarianza del campione. Adesso $\mathbf{V}_q$ $P = \mathbf{V}_q\mathbf{V}_q^T$

\sum_{i = 1}^{n} | | x_{i} - P x_{i} | |^{2} = \sum_{i = 1}^{n} | | x_{i} | |^{2} - \sum_{i = 1}^{n} | | P x_{i} | |^{2}

$\sum_{i=1}^n ||x_i - P x_i||^2 = \sum_{i=1}^n ||x_i||^2 - \sum_{i=1}^n||Px_i||^2$

P

$P$

\sum_{i = 1}^{n} | | P x_{i} | |^{2} = \sum_{i = 1}^{n} x_{i}^{T} P x_{i} = tr (P \sum_{i = 1}^{n} x_{i} x_{i}^{T}) = n tr (P S)

$\sum_{i=1}^n||Px_i||^2 = \sum_{i=1}^n x_i^TPx_i = \text{tr}(P \sum_{i=1}^n x_i x_i^T) = n \text{tr}(P \mathbf{S})$

P

$P$

S

$\mathbf{S}$

tr (P S) = tr (V_{q}^{T} S V_{q}) = \sum_{i = 1}^{q} u_{i}^{T} S u_{i}

$\text{tr}(P\mathbf{S}) = \text{tr}(\mathbf{V}_q^T\mathbf{S}\mathbf{V}_q) = \sum_{i=1}^q u_i^T \mathbf{S} u_i$ dove sono le colonne (ortonormali) in , e gli argomenti presentati nella risposta di @ cardinal mostrano che il massimo si ottiene prendendo ' devono essere autovettori per con gli autovalori più grandi.

u_{1}, \dots, u_{q}

$u_1, \ldots, u_q$

q

$q$

V_{q}

$\mathbf{V}_q$

u_{i}

$u_i$

q

$q$

S

$\mathbf{S}$

q

$q$

L'errore di ricostruzione suggerisce una serie di utili generalizzazioni, ad esempio componenti principali o ricostruzioni sparse per varietà a bassa dimensione anziché per iperpiani. Per i dettagli, consultare la Sezione 14.5 in Gli elementi dell'apprendimento statistico .

— NRH
fonte

(+1) Buoni punti. Alcuni suggerimenti: sarebbe bene definire e sarebbe davvero bello dare una breve prova del risultato. Oppure, in alternativa, può essere collegato al problema di ottimizzazione che coinvolge i quozienti Rayleight. Penso che renderebbe le risposte a questa domanda molto complete!

λ_{i}

$\lambda_i$

— cardinale

@cardinale, credo di aver completato i passaggi mancanti nel passare dalla formulazione di ricostruzione al problema che risolvi.

— NRH,

Bel lavoro. Credo che l'unico divario residuo sia nella tua ultima affermazione. Non è immediatamente evidente che l'ottimizzazione della somma equivale a eseguire la sequenza di ottimizzazioni nella mia risposta. In effetti, non penso che segua direttamente, in generale. Ma non deve essere affrontato neanche qui.

— cardinale

@ cardinale, segue per induzione. Fornisci l'inizio dell'induzione e nella fase di induzione scegli i vettori ortogonali che massimizzano la somma e la organizzano in modo che sia un vettore unitario ortogonale a . Quindi dai tuoi risultati e di induzione . Naturalmente, la base non è una base unica per lo spazio dimensionale. Puoi anche generalizzare l '"argomento della combinazione convessa" che usi per dare una prova diretta.

w_{1}, \dots, w_{q}

$w_1, \ldots, w_q$

w_{q}

$w_q$

u_{1}, \dots, u_{q - 1}

$u_1, \ldots, u_{q-1}$

w_{q}^{T} S w_{q} \leq u_{q}^{T} S u_{q}

$w_q^T \mathbf{S} w_q \leq u_q^T \mathbf{S} u_q$

\sum_{i = 1}^{q - 1} w_{i}^{T} S w_{i} \leq \sum_{i = 1}^{q - 1} u_{i}^{T} S u_{i}

$\sum_{i=1}^{q-1} w_i^T \mathbf{S} w_i \leq \sum_{i=1}^{q-1}u_i^T \mathbf{S} u_i$

q

$q$

— NRH

@ cardinale, non sto forzando un annidamento, ma semplicemente usando una considerazione dimensionale. Se abbiamo un sottospazio tridimensionale puoi sempre scegliere in quello spazio in modo che sia ortogonale a un sottospazio tridimensionale . Quindi riempi la base nel modo che preferisci.

q

$q$

w_{q}

$w_q$

(q - 1)

$(q-1)$

w

$w$

— NRH

Vedi NIPALS ( wiki ) per un algoritmo che non usa esplicitamente una decomposizione matriciale. Suppongo che sia questo che intendi quando dici che vuoi evitare l'algebra di matrice poiché non puoi davvero evitare l'algebra di matrice qui :)

— JMS
fonte