Quale norma dell'errore di ricostruzione è minimizzata dalla matrice di approssimazione di basso rango ottenuta con PCA?


Risposte:


30

Risposta di una sola parola: entrambe.


X2XF=

X2=supXv2v2=max(si)
siXSX=USV
XF=ijXij2=tr(XX)=si2,
siXSX=USV

PCA è dato dalla stessa scomposizione del valore singolare quando i dati sono centrati. sono componenti principali, sono assi principali, vale a dire autovettori della matrice di covarianza, e la ricostruzione di con solo i componenti principali corrispondenti ai valori singolari più grandi è data da .V X k k X k = U k S k V kUSVXkkXk=UkSkVk

Il teorema di Eckart-Young afferma che è la matrice che minimizza la norma dell'errore di ricostruzionetra tutte le matrici di grado . Ciò vale sia per la norma Frobenius che per l'operatore -norm. Come sottolineato da @cardinal nei commenti, fu dimostrato per la prima volta da Schmidt (di fama Gram-Schmidt) nel 1907 per il caso Frobenius. In seguito fu riscoperto da Eckart e Young nel 1936 ed è ora per lo più associato ai loro nomi. Mirsky generalizzò il teorema nel 1958 a tutte le norme invarianti sotto trasformazioni unitarie, e questo include l'operatore 2-norma.X - A A k 2XkXAAk2

Questo teorema viene talvolta chiamato teorema di Eckart-Young-Mirsky. Stewart (1993) lo chiama teorema di approssimazione di Schmidt. L'ho persino visto chiamato teorema di Schmidt-Eckart-Young-Mirsky.


Prova per l'operatore -norm2

Sia di rango massimo . Poiché è di rango , il suo spazio nullo ha dimensioni . Lo spazio attraversato dai vettori singolari di destra di corrispondenti ai valori singolari più grandi ha dimensioni . Quindi questi due spazi devono intersecarsi. Sia un vettore unitario dall'intersezione. Quindi otteniamo: QED.n A k n - k k + 1 X k + 1 w X - A 2 2( X - A ) w 2 2 = X w 2 2 = k + 1 i = 1 s 2 i ( v i w ) 2s 2XnAknkk+1Xk+1w

XA22(XA)w22=Xw22=i=1k+1si2(viw)2sk+12=XXk22,

Prova per la norma Frobenius

Vogliamo trovare la matrice di grado che minimizzi . Possiamo fattorizzare , dove ha colonne ortonormali. Ridurre a icona per fisso è un problema di regressione con la soluzione . Collegandolo, vediamo che ora dobbiamo minimizzare dove è la matrice di covarianza di , ovveroAkXAF2A=BWWkXBW2WB=XW

XXWW2=X2XWW2=consttr(WWXXWW)=constconsttr(WΣW),
ΣXΣ=XX/(n1). Questo significa che l'errore di ricostruzione viene minimizzato prendendo come colonne di qualche ortonormale vettori massimizzare la varianza totale della proiezione.Wk

È noto che si tratta dei primi autovettori della matrice di covarianza. Infatti, se , allora . Scrivendo che ha anche colonne ortonormali, otteniamo con il massimo raggiunto quando . Il teorema quindi segue immediatamente.kX=USVΣ=VS2V/(n-1)=VΛVR=VW

tr(WΣW)=tr(RΛR)=ΣioλioΣjRioj2Σio=1KλK,
W=VK

Vedi i seguenti tre thread correlati:


Tentativo precedente di una prova per la norma di Frobenius

Questa prova l'ho trovata da qualche parte online ma è errata (contiene un vuoto), come spiegato da @cardinal nei commenti.

La norma di Frobenius è invariante nelle trasformazioni unitarie, perché non cambia i valori singolari. Quindi otteniamo: dove . Continua:Questo è minimizzato quando tutti gli elementi off-diagonali di sono zero e tutti i termini diagonali annullano i valori singolari più grandi [gap qui: questo non è ovvio] , cioè e quindi .

XAF=USVA=SUAV=SB,
B=UAV
XAF=ij(SijBij)2=i(siBii)2+ijBij2.
Bkksi Boptimal=SkAoptimal=UkSkVk

2
La prova nel caso della norma Frobeniius non è corretta (o almeno completa) poiché l'argomento qui non preclude la possibilità che una matrice dello stesso rango possa cancellare alcuni degli altri termini diagonali pur avendo "piccolo" off- diagonali. Per vedere più chiaramente il gap, tenere costante la diagonale e "azzerare" le off-diagonali può spesso aumentare il grado della matrice in questione!
cardinale il

1
Si noti anche che l'SVD era noto a Beltrami (almeno in un caso abbastanza generale, anche se speciale) e alla Giordania già nel 1874.
Cardinale

BSKΣio(Sio-Bioio)2ΣiojBioj2
ameba dice Reinstate Monica il

3
Io faccio come GW Stewart (1993), sulla storia delle prime della decomposizione in valori singolari, SIAM Review , vol. 35, n. 4, 551-566 e, visto il tuo precedente interesse dimostrato per le questioni storiche, penso che lo farai anche tu. Sfortunatamente, penso che Stewart sia involontariamente eccessivamente sprezzante per l'eleganza della prova di Schmidt del 1907. Nascosta al suo interno c'è un'interpretazione di regressione che Stewart trascura e che è davvero piuttosto carina. C'è un'altra prova che segue l'approccio di diagonalizzazione iniziale adottato, ma che richiede un lavoro extra per colmare il divario. (cont.)
cardinale

2
@cardinal: Sì, hai ragione, ora vedo anche il divario. Grazie mille per il documento Stewart, è stata una lettura molto interessante. Vedo che Stewart presenta le prove di Schmidt e Weyl, ma entrambe sembrano più complicate di quelle che vorrei copiare qui (e finora non ho avuto il tempo di studiarle attentamente). Sono sorpreso: mi aspettavo che questo fosse un risultato molto semplice, ma sembra che sia meno banale di quanto pensassi. In particolare, non mi sarei aspettato che il caso Frobenius fosse molto più complicato di quello dell'operatore. Modificherò il post ora. Felice anno nuovo!
ameba dice di reintegrare Monica il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.