Come interpretare una covarianza inversa o una matrice di precisione?


65

Mi chiedevo se qualcuno potesse indicarmi alcuni riferimenti che discutono l'interpretazione degli elementi della matrice di covarianza inversa, nota anche come matrice di concentrazione o matrice di precisione.

Ho accesso alle dipendenze multivariate di Cox e Wermuth , ma quello che sto cercando è un'interpretazione di ogni elemento nella matrice inversa. Wikipedia afferma : "Gli elementi della matrice di precisione hanno un'interpretazione in termini di correlazioni parziali e varianze parziali", che mi porta a questa pagina. Esiste un'interpretazione senza usare la regressione lineare? IE, in termini di covarianze o geometria?


4
hai letto l'intera pagina di Wikipedia? C'è una sezione sulla geometria e sull'indipendenza condizionale per la distribuzione normale. Puoi trovare di più in questo libro .
NRH

@NRH La geometria è spiegata nella pagina di correlazione parziale, che non sono ancora sicuro di come si collega alla matrice di concentrazione. Quel libro di modelli grafici ha una spiegazione degli elementi della matrice di concentrazione? Grazie!
Vinh Nguyen,

vedi la risposta sotto.
NRH,

Risposte:


34

Fondamentalmente ci sono due cose da dire. Il primo è che se si osserva la densità per la distribuzione normale multivariata (con media 0 qui) è proporzionale a dove è l'inverso della matrice di covarianza, chiamata anche precisione. Questa matrice è definita positiva e definisce tramite un prodotto interno su . La geometria risultante, che dà un significato specifico al concetto di ortogonalità e definisce una norma relativa alla distribuzione normale, è importante e per comprendere, ad esempio, il contenuto geometrico di LDA è necessario per visualizzare le cose alla luce della geometria data di

exp(12xTPx)
P=Σ1
(x,y)xTPy
RpP .

L'altra cosa da dire è che le correlazioni parziali possono essere lette direttamente da , vedi qui . La stessa pagina di Wikipedia dà che le correlazioni parziali, e quindi le voci di , hanno un'interpretazione geometrica in termini di coseno in un angolo. Ciò che è forse più importante nel contesto delle correlazioni parziali è che la correlazione parziale tra e è 0 se e solo se la voce in è zero. Per la distribuzione normale le variabili e sono quindi condizionatamente indipendentiPPXiXji,jPXiXjdate tutte le altre variabili. Questo è ciò di cui tratta il libro di Steffens, di cui ho parlato nel commento sopra. Indipendenza condizionale e modelli grafici. Ha un trattamento abbastanza completo della distribuzione normale, ma potrebbe non essere così facile da seguire.


1
Mi dispiace sono un po 'confuso rispetto alla formula di Wikipedia per una correlazione parziale; Ho visto diverse implementazioni prendere (con un segno meno). Sei sicuro che la formula di Wikipedia sia corretta? pijpiipjj
Sheljohn,

1
@ Sh3ljohn, hai perfettamente ragione. Manca un segno meno nella formula di Wikipedia.
NRH,

La prima risposta non parla davvero più delle informazioni di Fisher che della matrice di precisione? Voglio dire, coincidono nel caso gaussiano davvero speciale / carino, ma non coincidono in generale. Ovviamente i due concetti sono correlati (limite inferiore di Cramer-Rao, distribuzione asintotica di MLE, ecc.) Ma non sembra utile confonderli (in particolare sono arrivato a questa domanda cercando la sua domanda su come distinguere le informazioni di Fisher e il matrice di correlazione inversa).
Chill2Macht

24

Mi piace questo modello grafico probabilistico per illustrare il punto di NRH che la correlazione parziale è zero se e solo se X è condizionatamente indipendente da Y dato Z, con il presupposto che tutte le variabili coinvolte sono gaussiane multivariate (la proprietà non regge nel caso generale) :

inserisci qui la descrizione dell'immagine

( sono variabili casuali gaussiane; ignora T e k)yi

Fonte: discorso di David MacKay su Gaussian Process Basics , 25 ° minuto.


12

L'interpretazione basata su correlazioni parziali è probabilmente la più statisticamente utile, poiché si applica a tutte le distribuzioni multivariate. Nel caso speciale della distribuzione Normale multivariata, la correlazione parziale zero corrisponde all'indipendenza condizionale.

Puoi ricavare questa interpretazione usando il complemento di Schur per ottenere una formula per le voci della matrice di concentrazione in termini delle voci della matrice di covarianza. Vedi http://en.wikipedia.org/wiki/Schur_complement#Applications_to_probability_theory_and_statistics


11

La matrice di covarianza può rappresentare la relazione tra tutte le variabili mentre la covarianza inversa, segna la relazione dell'elemento con i loro vicini (come Wikipedia ha detto relazione saggia parziale / coppia).

Prendo in prestito l'esempio seguente da qui in 24:10, immagino che 5 masse siano collegate tra loro e giurino intorno con 6 molle, la matrice di covarianza conterrebbe la correlazione di tutte le masse, se uno va bene, anche altri possono andare bene. ma la matrice di covarianza inversa calza la relazione di quelle masse che sono collegate dalla stessa sorgente (vicini) e contiene molti zeri e il suo positivo non necessario.


1
Dove è spiegato nel video? È lunga un'ora. Grazie!
Vinh Nguyen,

hai ragione, è su 24:10, penso che sia l'esempio migliore per capire la natura della matrice cov e il suo inverso
user4581

5

Bar-Shalom e Fortmann (1988) menzionano la covarianza inversa nel contesto del filtraggio di Kalman come segue:

... [T] qui è una ricorsione per la covarianza inversa (o matrice di informazioni )

P1(k+1|k+1)=P1(k+1|k)+H(k+1)R1(k+1)H(k+1)

... In effetti, un set completo di equazioni di previsione e aggiornamento, noto come filtro informazioni [8, 29, 142], può essere sviluppato per la covarianza inversa e un vettore di stato trasformato .P1x^

Il libro è indicizzato su Google .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.