Senza cercare di fornire un primer completo su PCA, dal punto di vista dell'ottimizzazione, la funzione obiettivo principale è il quoziente di Rayleigh . La matrice che figura nel quoziente è (alcuni multipli di) la matrice di covarianza di esempio
dove ogni è un vettore di caratteristiche e è la matrice tale che la esima riga è .
S=1n∑i=1nxixTi=XTX/n
xipXixTi
PCA cerca di risolvere una sequenza di problemi di ottimizzazione. Il primo nella sequenza è il problema non vincolato
maximizeuTSuuTu,u∈Rp.
Dato che, il suddetto problema non vincolato equivale al problema vincolato
uTu=∥u∥22=∥u∥∥u∥
maximizesubject touTSuuTu=1.
Qui è dove entra in gioco l'algebra della matrice. Poiché è una matrice semidefinita positiva simmetrica (per costruzione!) Ha una decomposizione autovalore della forma
dove è un matrice ortogonale (quindi ) e è una matrice diagonale con voci non tale che .S
S=QΛQT,
QQQT=IΛλiλ1≥λ2≥⋯≥λp≥0
Quindi, . Poiché è vincolato nel problema ad avere una norma di uno, allora lo è anche da , in virtù del fatto che è ortogonale.uTSu=uTQΛQTu=wTΛw=∑pi=1λiw2iuw∥w∥2=∥QTu∥2=∥u∥2=1Q
Ma, se vogliamo massimizzare la quantità sotto i vincoli che , il meglio che possiamo fare è impostare , ovvero e per .∑pi=1λiw2i∑pi=1w2i=1w=e1w1=1wi=0i>1
Ora, ritirando il corrispondente , che è quello che abbiamo cercato in primo luogo, otteniamo che
dove denota la prima colonna di , cioè, l'autovettore corrispondente autovalore della . Anche il valore della funzione obiettivo può essere facilmente visualizzato come .u
u⋆=Qe1=q1
q1QSλ1
I restanti vettori dei componenti principali vengono quindi trovati risolvendo la sequenza (indicizzata da ) dei problemi di ottimizzazione
Quindi, il problema è lo stesso, tranne per il fatto che aggiungiamo il vincolo aggiuntivo che la soluzione deve essere ortogonale a tutte le soluzioni precedenti nella sequenza. Non è difficile estendere l'argomento sopra induttivamente per dimostrare che la soluzione della esima problema è, infatti, , l' esimo autovettore .i
maximizesubject touTiSuiuTiui=1uTiuj=0∀1≤j<i.
iqiiS
La soluzione PCA viene anche spesso espressa in termini di decomposizione del valore singolare di . Per vedere perché, lasciate . Quindi e così (a rigor di termini, fino a firmare i flip) e .XX=UDVTnS=XTX=VD2VTV=QΛ=D2/n
I componenti principali si trovano proiettando sui vettori dei componenti principali. Dalla formulazione SVD appena data, è facile vedere che
X
XQ=XV=UDVTV=UD.
La semplicità di rappresentazione dei vettori dei componenti principali e dei componenti principali stessi in termini di SVD della matrice di funzionalità è uno dei motivi per cui SVD è così importante in alcuni trattamenti di PCA.