Lo stimatore imparziale della matrice di covarianza del campione dato punti di dati x i ∈ R d è C = 1nxi∈Rddove ˉ x =∑xi/nè la media su tutti i punti. Indichiamo(xi- ˉ x )comezi. Il1
C=1n−1∑i=1n(xi−x¯)(xi−x¯)⊤,
x¯=∑xi/n(xi−x¯)zi fattore non cambia il rango, e ogni termine nella somma ha (per definizione) rango
1, quindi il nocciolo della domanda è il seguente:
1n−11
Perché ho rango n - 1 e non rango n , come sembrerebbe, perché stiamo sommando n di ranghi 1 matrici?∑ziz⊤in−1nn1
La risposta è che succede perché non sono indipendenti. Per costruzione, ∑ z i = 0 . Quindi se conosci n - 1 di z i , allora l'ultimo z n rimanente è completamente determinato; non stiamo sommando n matrici di grado 1 indipendenti , stiamo sommando solo n - 1 matrici di grado 1 indipendenti e quindi aggiungendo un'altra matrice di grado 1 che è completamente linearmente determinata dal resto. Quest'ultima aggiunta non cambia il grado generale.zi∑zi=0n−1ziznn1n−111
Possiamo vederlo direttamente se riscriviamo come z n = - n - 1 ∑ i = 1 z i , e ora lo inseriamo nell'espressione sopra: n ∑ i = 1 z i z ⊤ i = n - 1 ∑ i = 1 z i z ⊤ i + ( - n - 1 ∑ i = 1∑zi=0
zn=−∑i=1n−1zi,
Ora rimangono solo n - 1 termini nella somma e diventa chiaro che l'intera somma può avere al massimo il grado n - 1 .∑i=1nziz⊤i=∑i=1n−1ziz⊤i+(−∑i=1n−1zi)z⊤n=∑i=1n−1zi(zi−zn)⊤.
n−1n−1
Questo risultato, tra l'altro, suggerisce perché il fattore nello stimatore imparziale della covarianza sia e non11n−1 .1n
L'intuizione geometrica a cui ho accennato nei commenti sopra è che si può sempre adattare una linea 1D a due punti qualsiasi in 2D e si può sempre adattare un piano 2D a tre punti qualsiasi in 3D, ovvero la dimensionalità del sottospazio è sempre ; questo funziona solo perché supponiamo che questa linea (e piano) possa essere "spostata" per adattarci ai nostri punti. "Posizionare" questa linea (o piano) in modo che passi attraverso ˉ x equivale a centrare nell'argomento algebrico sopra.n−1x¯