Am×nm≥nvAv1=argmaxv∈Rn∥Av∥2subject to ∥v∥2=1.(1)
v1Av2=argmaxv∈Rn∥Av∥2subject to ⟨v1,v⟩=0,∥v∥2=1.
v1,…,vnRnRnA
Let (così quantifica la potenza esplosiva di nella direzione ). Supponiamo che i vettori di unità siano definiti in modo tale che
Le equazioni (2) possono essere espressi sinteticamente utilizzando la notazione matriciale come
dove è la matrice cui esima colonna è , è la matrice avente la colonna è eσi=∥Avi∥2σiAviuiAvi=σiuifor i=1,…,n.(2)
AV=UΣ,(3)
Vn×niviUm×niuiΣè il matrice diagonale cui esima entrata diagonale è . La matrice è ortogonale, quindi possiamo moltiplicare entrambi i lati di (3) per per ottenere
Potrebbe sembrare che ora abbiamo derivato l'SVD di con uno sforzo quasi nullo. Nessuno dei passaggi finora è stato difficile. Tuttavia, manca un pezzo cruciale del quadro: non sappiamo ancora che sia ortogonale.n×niσiVVTA=UΣVT.
AU
Ecco il fatto cruciale, il pezzo mancante: risulta che è ortogonale ad :
Dichiaro che se questo non fosse vero, allora non sarebbe ottimale per il problema (1). In effetti, se (4) non fosse soddisfatto, sarebbe possibile migliorare perturbandolo un po 'nella direzione .Av1Av2⟨Av1,Av2⟩=0.(4)
v1 v1v2
Supponiamo (per una contraddizione) che (4) non sia soddisfatto. Se è leggermente disturbato nella direzione ortogonale , la norma di non cambia (o almeno, la variazione della norma di è trascurabile). Quando cammino sulla superficie della terra, la mia distanza dal centro della terra non cambia. Tuttavia, quando è perturbato nella direzione , il vettore è perturbato nella direzione non ortogonale , e quindi il cambiamento nella norma di non è trascurabile . La norma div1v2v1v1v1v2Av1Av2Av1Av1può essere aumentato di un importo non trascurabile. Ciò significa che non è ottimale per il problema (1), che è una contraddizione. Adoro questo argomento perché: 1) l'intuizione è molto chiara; 2) l'intuizione può essere convertita direttamente in una prova rigorosa.v1
Un argomento simile mostra che è ortogonale a e e così via. I vettori sono ortogonali a coppie. Ciò significa che i vettori unità possono essere scelti per essere ortogonali a coppie, il che significa che la matrice sopra è una matrice ortogonale. Questo completa la nostra scoperta dell'SVD.Av3Av1Av2Av1,…,Avnu1,…,unU
Per convertire l'argomento intuitivo sopra riportato in una prova rigorosa, dobbiamo confrontare il fatto che se è perturbato nella direzione , il vettore perturbato
non è veramente un vettore unitario. (La sua norma è .) Per ottenere una prova rigorosa, definire
Il vettore è veramente un vettore unitario. Ma come puoi facilmente dimostrare, se (4) non è soddisfatto, allora per valori sufficientemente piccoli di abbiamo
(presupponendo che il segno div1v2v~1=v1+ϵv2
1+ϵ2−−−−−√v¯1(ϵ)=1−ϵ2−−−−−√v1+ϵv2.
v¯1(ϵ)ϵf(ϵ)=∥Av¯1(ϵ)∥22>∥Av1∥22
ϵè scelto correttamente). Per mostrarlo, controlla che . Ciò significa che non è ottimale per il problema (1), che è una contraddizione.f′(0)≠0v1
(A proposito, raccomando di leggere la spiegazione di Qiaochu Yuan sull'SVD qui . In particolare, dai un'occhiata a "Key lemma # 1", che è quello che abbiamo discusso sopra. Come dice Qiaochu, il lemma chiave # 1 è "il cuore tecnico di decomposizione a valore singolare ".)