Risposte:
‖X‖F=√
PCA è dato dalla stessa scomposizione del valore singolare quando i dati sono centrati. sono componenti principali, sono assi principali, vale a dire autovettori della matrice di covarianza, e la ricostruzione di con solo i componenti principali corrispondenti ai valori singolari più grandi è data da .V X k k X k = U k S k V ⊤ k
Il teorema di Eckart-Young afferma che è la matrice che minimizza la norma dell'errore di ricostruzionetra tutte le matrici di grado . Ciò vale sia per la norma Frobenius che per l'operatore -norm. Come sottolineato da @cardinal nei commenti, fu dimostrato per la prima volta da Schmidt (di fama Gram-Schmidt) nel 1907 per il caso Frobenius. In seguito fu riscoperto da Eckart e Young nel 1936 ed è ora per lo più associato ai loro nomi. Mirsky generalizzò il teorema nel 1958 a tutte le norme invarianti sotto trasformazioni unitarie, e questo include l'operatore 2-norma. ‖ X - A ‖ A k 2
Questo teorema viene talvolta chiamato teorema di Eckart-Young-Mirsky. Stewart (1993) lo chiama teorema di approssimazione di Schmidt. L'ho persino visto chiamato teorema di Schmidt-Eckart-Young-Mirsky.
Sia di rango massimo . Poiché è di rango , il suo spazio nullo ha dimensioni . Lo spazio attraversato dai vettori singolari di destra di corrispondenti ai valori singolari più grandi ha dimensioni . Quindi questi due spazi devono intersecarsi. Sia un vettore unitario dall'intersezione. Quindi otteniamo: QED.n A k n - k k + 1 X k + 1 w ‖ X - A ‖ 2 2 ≥ ‖ ( X - A ) w ‖ 2 2 = ‖ X w ‖ 2 2 = k + 1 ∑ i = 1 s 2 i ( v ⊤ i w ) 2 ≥ s 2
Vogliamo trovare la matrice di grado che minimizzi . Possiamo fattorizzare , dove ha colonne ortonormali. Ridurre a icona per fisso è un problema di regressione con la soluzione . Collegandolo, vediamo che ora dobbiamo minimizzare dove è la matrice di covarianza di , ovvero
È noto che si tratta dei primi autovettori della matrice di covarianza. Infatti, se , allora . Scrivendo che ha anche colonne ortonormali, otteniamo con il massimo raggiunto quando . Il teorema quindi segue immediatamente.
Vedi i seguenti tre thread correlati:
Questa prova l'ho trovata da qualche parte online ma è errata (contiene un vuoto), come spiegato da @cardinal nei commenti.
La norma di Frobenius è invariante nelle trasformazioni unitarie, perché non cambia i valori singolari. Quindi otteniamo: dove . Continua:Questo è minimizzato quando tutti gli elementi off-diagonali di sono zero e tutti i termini diagonali annullano i valori singolari più grandi [gap qui: questo non è ovvio] , cioè e quindi .