Perché una matrice di covarianza del campione è singolare quando la dimensione del campione è inferiore al numero di variabili?


30

Diciamo che ho una distribuzione gaussiana multivariata . E prendo osservazioni (ciascuno di essi un -vettore) da questa distribuzione e calcolare la matrice di covarianza del campione . In questo articolo , gli autori affermano che la matrice di covarianza del campione calcolata con è singolare.n p S p > npnpSp>n

  • Come è vero o derivato?
  • Qualche spiegazione?

4
Si noti che questo è vero indipendentemente dalla distribuzione sottostante: non deve essere gaussiano.
ameba dice Ripristina Monica il

Risposte:


22

Alcuni fatti sui ranghi delle matrici, offerti senza prove (ma le prove di tutti o quasi tutti dovrebbero essere fornite in testi di algebra lineare standard o, in alcuni casi, impostate come esercizi dopo aver fornito informazioni sufficienti per poterlo fare):

Se e B sono due matrici conformi, quindi:AB

(i) rango di colonna di = rango di riga di AAA

(ii) rank(A)=rank(AT)=rank(ATA)=rank(AAT)

(iii) rango(UNB)min(rango(UN),rango(B))

(iv) rango(UN+B)rango(UN)+rango(B)

(v) se è una matrice quadrata di rango completo, quindi rango ( A B ) = rango ( A )Brango(UNB)=rango(UN)

Considera la matrice dei dati di esempio, y . Da quanto sopra, il grado di y è al massimo min ( n , p ) .n×pyymin(n,p)

Inoltre, da quanto sopra chiaramente il rango di non sarà più grande del rango di y (considerando il calcolo di S in forma di matrice, con forse qualche semplificazione).SyS

Se alloran<p nel qual caso classifica ( S ) < p .rango(y)<prango(S)<p


bella risposta! Non è del tutto chiaro, tuttavia, in che modo y e S si riferiscono ad A e B?
Matifou,

S è calcolato da y; ("x" nel post originale). Puoi usare i fatti su ye le manipolazioni fatte su di esso (tramite le regole sopra) per ottenere un limite sul grado di S. I ruoli interpretati da A e B cambiano da un passaggio all'altro.
Glen_b

14

La risposta breve alla tua domanda è quella classifica (S)n-1 . Quindi se , allora S è singolare.p>nS

Per una risposta più dettagliata, ricorda che la matrice di covarianza del campione (imparziale) può essere scritta come

S=1n-1Σio=1n(Xio-X¯)(Xio-X¯)T.

In effetti, stiamo sommando matrici, ognuna con un rango di 1. Supponendo che le osservazioni siano linearmente indipendenti, in un certo senso ogni osservazione x i contribuisce 1 al rango ( S ) e un 1 viene sottratto dal rango (se p > n ) perché centriamo ogni osservazione di ˉ x . Tuttavia, se nelle osservazioni è presente la multicollinearità , allora classifica (nXio(S)p>nX¯ potrebbe essere ridotto, il che spiega perché il grado potrebbe essere inferiore a n - 1 .(S)n-1

Una grande quantità di lavoro è stata dedicata allo studio di questo problema. Ad esempio, un mio collega e io abbiamo scritto un articolo su questo stesso argomento, in cui eravamo interessati a determinare come procedere se è singolare quando applicato all'analisi discriminante lineare nell'impostazione p n .Sp»n


4
Potresti spiegare perché sottrarre 1 perché ogni osservazione di ˉ xx¯ ?
avocado,


Bella risposta! Forse potresti semplicemente aggiungere una spiegazione / link per il fatto che la frase che stiamo sommando 𝑛 matrici, ognuna con un rango di 1 ? Grazie!
Matifou,

10

Quando guardi la situazione nel modo giusto, la conclusione è intuitivamente ovvia e immediata.

Questo post offre due dimostrazioni. Il primo, immediatamente sotto, è a parole. È equivalente a un semplice disegno, che appare alla fine. Nel mezzo c'è una spiegazione del significato delle parole e del disegno.


La matrice di covarianza per osservazioni p -variate è una matrice p × p calcolata moltiplicando a sinistra una matrice X n p (i dati più recenti) per la sua trasposizione X p n . Questo prodotto di matrici invia vettori attraverso una pipeline di spazi vettoriali in cui le dimensioni sono p e n . Conseguentemente la matrice di covarianza, qua lineare trasformazione, invierà R n in un sottospazio cui dimensione è al massimo min ( p , n ) .n pp×pXnpXpn'pnRnmin(p,n)È immediato che il rango della matrice di covarianza non sia maggiore di . min(p,n) Di conseguenza, se il grado è al massimo n , che - essendo strettamente inferiore a p - significa che la matrice di covarianza è singolare.p>nnp

Tutta questa terminologia è completamente spiegata nel resto di questo post.

(Come Amoeba ha gentilmente sottolineato in un commento ora cancellato e mostra in una risposta a una domanda correlata , l'immagine di trova in realtà in un sottospazio codimensionale di R n (costituito da vettori i cui componenti si sommano a zero) perché le colonne sono state tutte aggiunte a zero, quindi il rango della matrice di covarianza del campione 1XRnnon può superaren-1.)1n-1X'Xn-1


L'algebra lineare riguarda il monitoraggio delle dimensioni degli spazi vettoriali. Hai solo bisogno di apprezzare alcuni concetti fondamentali per avere una profonda intuizione per asserzioni su rango e singolarità:

  1. La moltiplicazione di matrici rappresenta trasformazioni lineari di vettori. Una matrice M rappresenta una trasformazione lineare da uno spazio n- dimensionale V n ad uno spazio m- dimensionale V m . In particolare, invia qualsiasi x V n a M x = y V m . Che questa sia una trasformazione lineare segue immediatamente la definizione di trasformazione lineare e le proprietà aritmetiche di base della moltiplicazione di matrici.m×nMnVnmVmxVnMx=yVm

  2. Le trasformazioni lineari non possono mai aumentare le dimensioni. Ciò significa che l'immagine dell'intero spazio vettoriale sotto la trasformazione M (che è uno spazio sub-vettore di V m ) può avere una dimensione non maggiore di n . Questo è un teorema (facile) che segue dalla definizione di dimensione.VnMVmn

  3. La dimensione di qualsiasi spazio sub-vettore non può superare quella dello spazio in cui si trova. Questo è un teorema, ma di nuovo è ovvio e facile da dimostrare.

  4. Il rango di una trasformazione lineare è la dimensione della sua immagine. Il rango di una matrice è il rango della trasformazione lineare che rappresenta. Queste sono definizioni.

  5. Una matrice singolare ha un rango strettamente inferiore a nMmnn (la dimensione del suo dominio). In altre parole, la sua immagine ha una dimensione più piccola. Questa è una definizione

Per sviluppare l'intuizione, aiuta a vedere le dimensioni. Scriverò quindi le dimensioni di tutti i vettori e le matrici immediatamente dopo di loro, come in e x n . Quindi la formula genericaMmnxn

ym=Mmnxn

intende indicare che la matrice M , quando applicata a n -vettore x , produce un m -vettore y .m×nMnxmy

I prodotti delle matrici possono essere pensati come una "pipeline" di trasformazioni lineari. Genericamente, supponiamo è un un vettore dimensionale risultante dalle successive applicazioni di lineare trasformazioni M m n , L l m , ... , B b c , e A un b alla n -vettore x n proveniente dallo spazio V n . Questo porta il vettore x n in successione attraverso un insieme di spazi vettoriali di dimensioni myun'un'Mmn,Llm,...,BBc,UNun'BnXnVnXn. e, infine, unm,l,...,c,B,un'

Cerca il collo di bottiglia : poiché le dimensioni non possono aumentare (punto 2) e i sottospazi non possono avere dimensioni maggiori degli spazi in cui si trovano (punto 3), ne consegue che la dimensione dell'immagine di non può superare la dimensione più piccola min ( a , b , c , , l , m , n ) riscontrati nella pipeline.Vnmin(un',B,c,...,l,m,n)


Questo diagramma della pipeline, quindi, dimostra pienamente il risultato quando viene applicato al prodotto :X'X

! [inserisci la descrizione dell'immagine qui

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.