Ciò che è compreso dalla varianza in diverse dimensioni ("varianza totale") è semplicemente una somma delle varianze in ogni dimensione. Matematicamente, è una traccia della matrice di covarianza: la traccia è semplicemente una somma di tutti gli elementi diagonali. Questa definizione ha varie belle proprietà, ad esempio la traccia è invariante nelle trasformazioni lineari ortogonali, il che significa che se si ruotano gli assi delle coordinate, la varianza totale rimane invariata.
Ciò che è dimostrato nel libro di Bishop (sezione 12.1.1) è che il principale autovettore della matrice di covarianza dà la direzione della massima varianza. Il secondo autovettore fornisce la direzione della varianza massima sotto un ulteriore vincolo che dovrebbe essere ortogonale al primo autovettore, ecc. (Credo che ciò costituisca l'Esercizio 12.1). Se l'obiettivo è massimizzare la varianza totale nel sottospazio 2D, questa procedura è una massimizzazione golosa: prima scegli un asse che massimizzi la varianza, poi un altro.
La tua domanda è: perché questa procedura avida ottiene un massimo globale?
Ecco una bella discussione che @whuber ha suggerito nei commenti. Allineamo prima il sistema di coordinate con gli assi PCA. La matrice di covarianza diventa diagonale: . Per semplicità considereremo lo stesso caso 2D, ovvero qual è il piano con la varianza totale massima? Vogliamo dimostrare che è il piano dato dai primi due vettori base (con varianza totale ).Σ = d i a g ( λio)λ1+ λ2
Considera un piano attraversato da due vettori ortogonali e . La varianza totale in questo piano èQuindi è una combinazione lineare di autovalori con coefficienti che sono tutti positivi, non superano (vedi sotto) e sommano a . In tal caso, è quasi ovvio che il massimo viene raggiunto in .v u ⊤ Σ u + v ⊤ Σ v = ∑ λ i u 2 i + ∑ λ i v 2 i = ∑ λ i ( u 2 i + v 2 i ) . λ i 1 2 λ 1 + λ 2uv
u⊤Σ u + v⊤Σ v = ∑ λiou2io+ ∑ λiov2io= ∑ λio( u2io+ v2io) .
λio12λ1+ λ2
È rimasto solo per mostrare che i coefficienti non possono superare . Si noti che , dove è il -esimo vettore di base. Questa quantità è una lunghezza quadrata di una proiezione di sul piano attraversato da e . Pertanto deve essere inferiore alla lunghezza quadrata di che è uguale a , QED.1k k k u v k | k | 2 = 1u2K+ v2K= ( u ⋅ k )2+ ( v ⋅ k )2KKKuvK| k |2= 1
Vedi anche la risposta di @ cardinal a Qual è la funzione oggettiva della PCA? (segue la stessa logica).