Misura appropriata per trovare la matrice di covarianza più piccola


10

Nel libro di testo che sto leggendo usano la nitidezza positiva (semi-positività) per confrontare due matrici di covarianza. L'idea è che se è pd allora è più piccolo di . Ma sto lottando per ottenere l'intuizione di questa relazione?ABBA

C'è un thread simile qui:

/math/239166/what-is-the-intuition-for-using-definiteness-to-compare-matrices

Qual è l'intuizione di usare la determinazione per confrontare le matrici?

Sebbene le risposte siano carine, in realtà non affrontano l'intuizione.

Ecco un esempio che trovo confuso:

[1612129][1224]

ora qui il determinante della differenza è -25 quindi la relazione non è pd o nemmeno psd e quindi la prima matrice non è maggiore della prima?

Voglio semplicemente confrontare due matrici di covarianza 3 * 3 per vedere qual è la più piccola? Mi sembrerebbe più intuitivo usare qualcosa come la norma euclidea per confrontarli? Tuttavia, ciò significherebbe che la prima matrice sopra è maggiore del secondo matix. Inoltre vedo sempre e solo il criterio pd / psd usato per confrontare le matrici di covarianza.

Qualcuno può spiegare perché pd / psd è meglio che usare un'altra misura come la norma euclidea?

Ho anche pubblicato questa domanda sul forum di matematica (non ero sicuro di cosa fosse meglio) spero che questo non contravvenga a nessuna regola.

/math/628135/comparing-two-covariance-matrices


2
Potresti voler leggere questo in cui si considera l'intuizione dietro la (semi) definitività positiva. Quando si confrontano 2 varianze ae b, se a-bè positiva, allora potremmo dire che al momento la rimozione di variabilità bfuori arimane una certa variabilità "reale" a sinistra in a. Allo stesso modo è un caso di varianze multivariate (= matrici di covarianza) Ae B. Se A-Bè definito positivo, ciò significa che la A-Bconfigurazione dei vettori è "reale" nello spazio euclideo: in altre parole, una volta rimosso Bda A, quest'ultimo è ancora una variabilità praticabile.
ttnphns,

2
Che cosa si intende per il "più piccolo" di due matrici di covarianza?
whuber

Ciao whuber, le matrici di covarianza si riferiscono a stimatori concorrenti, desidero selezionare lo stimatore che ha la varianza più piccola. (Questo chiarisce le cose?)
Baz,

2
Baz: Allora perché non confrontare direttamente le varianze degli stimatori?
Glen_b

Salve, viene impostato il metodo, viene data l'espressione per ciò che chiamano varianza (che include le covarianze). Tuttavia, anche se dovessi confrontare solo varianze, ciò implicherebbe comunque il confronto di valori vettoriali che avranno problemi simili al confronto dei valori di matrice?
Baz,

Risposte:


8

L'ordinamento delle matrici a cui si fa riferimento è noto come ordine del Loewner ed è un ordine parziale molto utilizzato nello studio di matrici definite positive. Un trattamento di lunghezza del libro della geometria sul collettore di matrici positive-definite (posdef) è qui .

Cercherò innanzitutto di rispondere alla tua domanda sulle intuizioni . A (simmetrica) matrice è posdef se per tutti . Se è una variabile casuale (rv) con matrice di covarianza , allora è (proporzionale a) la sua proiezione su un sottospazio unidimensionale e . Applicando questo ad nella tua Q, in primo luogo: è una matrice di covarianza, in secondo luogo: una variabile casuale con matrice di covar proietta in tutte le direzioni con varianza minore di un camper con matrice di covarianzaAcTAc0cRnXAcTXVar(cTX)=cTAcABBAA. Questo rende intuitivamente chiaro che questo ordinamento può essere solo parziale, ci sono molti camper che proietteranno in direzioni diverse con varianze selvaggiamente diverse. La tua proposta di alcune norme euclidee non ha un'interpretazione statistica così naturale.

Il tuo "esempio confuso" è confuso perché entrambe le matrici hanno zero determinante. Quindi per ognuno esiste una direzione (autovettore con autovalore zero) in cui proiettano sempre a zero . Ma questa direzione è diversa per le due matrici, quindi non possono essere confrontate.

L'ordine del Loewner è definito in modo tale che , sia definito più positivo di , se è posdef. Questo è un ordine parziale, per alcune matrici posdef né né sono posdef. Un esempio è: Un modo di mostrarlo graficamente significa disegnare un diagramma con due ellissi, ma centrato sull'origine, associato in modo standard alle matrici (quindi la distanza radiale in ciascuna direzione è proporzionale alla varianza della proiezione in quella direzione):ABBABABAAB

A=(10.50.51),B=(0.5001.5)

Due matrici posdef mostrate come ellissi

In questi casi le due ellissi sono congruenti, ma ruotate in modo diverso (in effetti l'angolo è di 45 gradi). Ciò corrisponde al fatto che le matrici e hanno gli stessi autovalori, ma gli autovettori sono ruotati.AB

Poiché questa risposta dipende molto dalle proprietà delle ellissi, la seguente Qual è l'intuizione dietro le distribuzioni gaussiane condizionate? spiegare le ellissi in modo geometrico, può essere utile.

Ora spiegherò come sono definite le ellissi associate alle matrici. Una matrice posdef definisce una forma quadratica . Questo può essere tracciato come una funzione, il grafico sarà quadratico. Se il grafico di sarà sempre sopra il grafico di . Se tagliamo i grafici con un piano orizzontale all'altezza 1, i tagli descriveranno le ellissi (che in realtà è un modo per definire le ellissi). Le ellissi di questo taglio sono date dalle equazioni e vediamo cheAQA(c)=cTAcABQBQA

QA(c)=1,QB(c)=1
ABcorrisponde all'ellisse di B (ora con interno) è contenuta all'interno dell'ellisse di A. Se non c'è ordine, non ci sarà contenimento. Osserviamo che l'ordine di inclusione è opposto all'ordine parziale del Loewner, se non ci piace che possiamo disegnare ellissi degli inversi. Questo perché è equivalente a . Ma rimarrò con le ellissi come definito qui.ABB1A1

Un'ellisse può essere descritta con i semiassiali e la loro lunghezza. Discuteremo solo matrici qui, poiché sono quelle che possiamo disegnare ... Quindi abbiamo bisogno dei due assi principali e della loro lunghezza. Questo può essere trovato, come spiegato qui con un'egendecomposizione della matrice posdef. Quindi gli assi principali sono dati dagli autovettori e la loro lunghezza può essere calcolata dagli autovalori da Possiamo anche vedere che l'area dell'ellisse che rappresenta è .2×2a,bλ1,λ2

a=1/λ1,b=1/λ2.
Aπab=π1/λ11/λ2=πdetA

Farò un ultimo esempio in cui è possibile ordinare le matrici:

Due matrici che possono essere ordinate tracciate come ellissi

Le due matrici in questo caso erano:

A=(2/31/51/53/4),B=(11/71/71)


3

@kjetil b halvorsen offre una bella discussione dell'intuizione geometrica alla base della semi-definitività positiva come ordinamento parziale. Darò una visione più sporca di quella stessa intuizione. Uno che procede da quale tipo di calcoli potresti voler fare con le tue matrici di varianza.

Supponiamo di avere due variabili casuali e . Se sono scalari, allora possiamo calcolare le loro varianze come scalari e confrontarli in modo ovvio usando i numeri reali scalari e . Quindi se e , diciamo che la variabile casuale ha una varianza minore di .xyV(x)V(y)V(x)=5V(y)=15xy

D'altra parte, se ed sono variabili casuali a valori vettoriali (diciamo che sono due vettori), come mettiamo a confronto le loro varianze non è così ovvio. Supponiamo che le loro variazioni siano: Come possiamo confrontare le varianze di questi due vettori casuali? Una cosa che potremmo fare è semplicemente confrontare le varianze dei loro rispettivi elementi. Quindi, possiamo dire che la varianza di è minore della varianza di confrontando semplicemente i numeri reali, come: exy

V(x)=[10.50.51]V(y)=[8336]
x1y1V(x1)=1<8=V(y1)V(x2)=1<6=V(y2). Così, forse potremmo dire che la varianza di è la varianza di se la varianza di ogni elemento di è la varianza dell'elemento corrispondente di . Questo sarebbe come dire se ciascuno degli elementi diagonali di è l'elemento diagonale corrispondente di .xyxyV(x)V(y)V(x)V(y)

Questa definizione sembra ragionevole a prima vista. Inoltre, fintanto che le matrici di varianza che stiamo prendendo in considerazione sono diagonali (cioè tutte le covarianze sono 0), è lo stesso che usare la semi-definizione. Cioè, se le varianze sembrano quindi dicendo è semi-definito positivo (cioè che ) è lo stesso che dire e . Tutto sembra buono fino a quando non introduciamo le covarianze. Considera questo esempio:

V(x)=[V(x1)00V(x2)]V(y)=[V(y1)00V(y2)]
V(y)V(x)V(x)V(y)V(x1)V(y1)V(x2)V(y2)
V(x)=[10.10.11]V(y)=[1001]
Ora, usando un confronto che considera solo le diagonali, dovremmo dire e, in effetti, è ancora vero che elemento per elemento . Ciò che potrebbe iniziare a darci fastidio è che se calcoliamo una somma ponderata degli elementi dei vettori, come e , allora ci nel fatto che anche se stiamo dicendo .V(x)V(y)V(xk)V(yk)3x1+2x23y1+2y2V(3x1+2x2)>V(3y1+2y2)V(x)V(y)

Questo è strano, vero? Quando ed sono scalari, allora garantisce che per ogni, non casuale fisso , .xyV(x)V(y)aV(ax)V(ay)

Se, per qualsiasi motivo, siamo interessati a combinazioni lineari degli elementi delle variabili casuali come questa, allora potremmo voler rafforzare la nostra definizione di per matrici di varianza. Forse vogliamo dire se e solo se è vero che , indipendentemente dai numeri fissi e che selezioniamo. Nota, questa è una definizione più forte della definizione solo diagonali poiché se scegliamo dice e se scegliamo dice .V(x)V(y)V(a1x1+a2x2)V(a1y1+a2y2)a1a2a1=1,a2=0V(x1)V(y1)a1=0,a2=1V(x2)V(y2)

Questa seconda definizione, quella che dice se e solo se per ogni possibile vettore fisso , è il solito metodo per confrontare la varianza matrici basate sulla semi-definitività positiva: Guarda l'ultima espressione e la definizione di semi-definito positivo per vedere che la definizione di per matrici di varianza è scelta esattamente per garantire che if e only if per qualsiasi scelta di , cioè quando è semi positivo -preciso.V(x)V(y)V(ax)V(ay)a

V(ay)V(ax)=aV(x)aaV(y)a=a(V(x)V(y))a
V(x)V(y)V(ax)V(ay)a(V(y)V(x))

Quindi, la risposta alla tua domanda è che le persone dicono che una matrice di varianza è più piccola di una matrice di varianza se è semi-definito positivo perché sono interessati a confrontare le varianze delle combinazioni lineari degli elementi dei vettori casuali sottostanti. La definizione scelta segue ciò che ti interessa calcolare e in che modo tale definizione ti aiuta con tali calcoli.VWWV

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.