Derivazione delle distribuzioni condizionate di una distribuzione normale multivariata


114

Abbiamo un vettore normale multivariato YN(μ,Σ) . Prendi in considerazione il partizionamento μ e Y in

μ=[μ1μ2]
Y=[y1y2]

con una partizione simile di Σ in

[Σ11Σ12Σ21Σ22]
Quindi, (y1|y2=a) , la distribuzione condizionale della prima partizione data la seconda, è N(μ¯,Σ¯) , con mean
μ¯=μ1+Σ12Σ221(aμ2)
e matrice di covarianza
Σ¯=Σ11Σ12Σ221Σ21

In realtà questi risultati sono forniti anche su Wikipedia, ma non ho idea di come μ¯ e Σ¯ . Questi risultati sono cruciali, poiché sono una formula statistica importante per derivare i filtri di Kalman . Qualcuno mi fornirebbe una fase di derivazione di derivare μ¯ e Σ¯ ? Grazie mille!


24
L'idea è di usare la definizione di densità condizionale . Sai che il comune è un normale bivariato e che il marginale è un normale, quindi devi solo sostituire i valori e fare l'algebra sgradevole. Queste note potrebbero essere di aiuto. Ecco la prova completa. f(y1|y2=a)=fY1,Y2(y1,a)fY2(a)fY1,Y2fY2

1
Il tuo secondo link risponde alla domanda (+1). Perché non inserirlo come risposta @Procrastinator?
gui11aume,

1
Non me ne ero reso conto, ma penso che stavo implicitamente usando questa equazione in un PCA condizionale. Il PCA condizionale richiede una trasformazione che sta effettivamente calcolando la matrice di covarianza condizionale data la scelta di A.(IA(AA)1A)Σ
John

@Procrastinator: il tuo approccio richiede in realtà la conoscenza dell'identità della matrice di Woodbury e la conoscenza dell'inversione della matrice a livello di blocco. Ciò si traduce in algebra matriciale inutilmente complicata.
Probislogic,

2
@probabilityislogic In realtà il risultato è dimostrato nel link che ho fornito. Ma è rispettabile se lo trovi più complicato di altri metodi. Inoltre, non stavo tentando di fornire una soluzione ottimale nel mio commento . Inoltre, il mio commento era precedente alla risposta di Macro (che ho votato come puoi vedere).

Risposte:


111

Puoi dimostrarlo calcolando esplicitamente la densità condizionale per forza bruta, come nel link di Procrastinator (+1) nei commenti. Ma c'è anche un teorema che dice che tutte le distribuzioni condizionali di una distribuzione normale multivariata sono normali. Pertanto, tutto ciò che rimane è calcolare il vettore medio e la matrice di covarianza. Ricordo che l'abbiamo derivato in una classe di serie temporali al college definendo abilmente una terza variabile e usando le sue proprietà per derivare il risultato più semplicemente della soluzione di forza bruta nel collegamento (purché tu sia a tuo agio con l'algebra matriciale). Sto andando dalla memoria ma era qualcosa del genere:


Sia la prima partizione e la seconda. Ora definisci dove . Adesso possiamo scriverex 2 z = x 1 + A x 2 A =- Σ 12 Σ - 1 22x1x2z=x1+Ax2A=Σ12Σ221

cov(z,x2)=cov(x1,x2)+cov(Ax2,x2)=Σ12+Avar(x2)=Σ12Σ12Σ221Σ22=0

Pertanto e non sono correlati e, poiché sono congiuntamente normali, sono indipendenti . Ora, chiaramente , quindi ne consegue chezx2E(z)=μ1+Aμ2

E(x1|x2)=E(zAx2|x2)=E(z|x2)E(Ax2|x2)=E(z)Ax2=μ1+A(μ2x2)=μ1+Σ12Σ221(x2μ2)

che dimostra la prima parte. Per la matrice di covarianza, si noti che

var(x1|x2)=var(zAx2|x2)=var(z|x2)+var(Ax2|x2)Acov(z,x2)cov(z,x2)A=var(z|x2)=var(z)

Ora abbiamo quasi finito:

var(x1|x2)=var(z)=var(x1+Ax2)=var(x1)+Avar(x2)A+Acov(x1,x2)+cov(x2,x1)A=Σ11+Σ12Σ221Σ22Σ221Σ212Σ12Σ221Σ21=Σ11+Σ12Σ221Σ212Σ12Σ221Σ21=Σ11Σ12Σ221Σ21

che dimostra la seconda parte.

Nota: per coloro che non hanno molta familiarità con l'algebra della matrice qui usata, questa è una risorsa eccellente .

Modifica: una proprietà usata qui non è nel ricettario della matrice (buona cattura @FlyingPig) è la proprietà 6 nella pagina di Wikipedia sulle matrici di covarianza: che è quella per due vettori casuali , Per gli scalari, ovviamente, ma per i vettori sono diversi in quanto le matrici sono disposte diversamente.x,y

var(x+y)=var(x)+var(y)+cov(x,y)+cov(y,x)
cov(X,Y)=cov(Y,X)

Grazie per questo brillante metodo! C'è una matrice algebrica che non mi sembra familiare, dove posso trovare la formula per aprire ? Non l'ho trovato sul link che hai inviato. var(x1+Ax2)
Maiale volante

@Flyingpig, prego. Credo che questo sia il risultato delle equazioni , combinate con una proprietà aggiuntiva della varianza della somma dei vettori casuali non scritta nel libro di ricette di Matrix - ho aggiunto questo fatto alla mia risposta - grazie per la cattura quello! (291),(292)
Macro,

13
Questa è un'ottima risposta (+1), ma potrebbe essere migliorata in termini di ordinamento dell'approccio. Iniziamo dicendo che vogliamo una combinazione lineare dell'intero vettore che è indipendente / non correlato con . Questo perché possiamo usare il fatto che che significa ed . Questi a loro volta portano a espressioni per ed . Questo significa che dovremmo prendere . Ora richiediamo . Se è invertibile, allora abbiamoz=Cx=C1x1+C2x2x2p(z|x2)=p(z)var(z|x2)=var(z)E(z|x2)=E(z)var(C1x1|x2)E(C1x1|x2)C1=Icov(z,x2)=Σ12+C2Σ22=0Σ22C2=Σ12Σ221 .
Probislogic,

1
@jakeoung - non sta dimostrando che , lo sta impostando su questo valore, in modo da ottenere un'espressione che contiene le variabili che vogliamo conoscere. C1=I
probabilityislogic

1
@jakeoung Inoltre non capisco bene questa affermazione. Capisco in questo modo: Se , allora . Quindi il valore di è in qualche modo una scala arbitraria. Quindi abbiamo impostato per semplicità. cov(z,x2)=0cov(C11z,x2)=C11cov(z,x2)=0C1C1=I
Ken T,

6

La risposta di Macro è ottima, ma qui c'è un modo ancora più semplice che non richiede di usare alcun teorema esterno per affermare la distribuzione condizionale. Implica la scrittura della distanza di Mahanalobis in una forma che separa la variabile argomento per l'affermazione di condizionamento e quindi la fattorizzazione della densità normale di conseguenza.


Riscrivere la distanza di Mahanalobis per un vettore condizionale: questa derivazione utilizza una formula di inversione di matrice che utilizza il complemento di Schur . Per prima cosa utilizziamo la formula di inversione a blocchi per scrivere la matrice di varianza inversa come:ΣS=Σ11Σ12Σ221Σ21

Σ1=[Σ11Σ12Σ21Σ22]1=[Σ11Σ12Σ21Σ22],

dove:

Σ11=ΣS1 Σ12=ΣS1Σ12Σ221,Σ21=Σ221Σ12ΣS1Σ22=Σ221Σ12ΣS1Σ12Σ221. 

Usando questa formula ora possiamo scrivere la distanza di Mahanalobis come:

(yμ)TΣ1(yμ)=[y1μ1y2μ2]T[Σ11Σ12Σ21Σ22][y1μ1y2μ2]=(y1μ1)TΣ11(y1μ1)+(y1μ1)TΣ12(y2μ2)+(y2μ2)TΣ21(y1μ1)+(y2μ2)TΣ22(y2μ2)=(y1(μ1+Σ12Σ221(y2μ2)))TΣS1(y1(μ1+Σ12Σ221(y2μ2)))=(y1μ)TΣ1(y1μ),

dove:

μμ1+Σ12Σ221(y2μ2),ΣΣ11Σ12Σ221Σ21.

Si noti che questo risultato è un risultato generale che non assume la normalità dei vettori casuali. Fornisce un modo utile per ri-inquadrare la distanza di Mahanalobis in modo che sia una forma quadratica rispetto a solo uno dei vettori nella decomposizione (con l'altro assorbito nel vettore medio e nella matrice di varianza).


Derivare la distribuzione condizionale: ora che abbiamo la forma sopra per la distanza Mahanalobis, il resto è facile. Abbiamo:

p(y1|y2,μ,Σ)y1p(y1,y2|μ,Σ)=N(y|μ,Σ)y1exp(12(yμ)TΣ1(yμ))=exp(12(y1μ)TΣ1(y1μ))y1N(y1|μ,Σ).

Ciò stabilisce che anche la distribuzione condizionale è normale multivariata, con il vettore medio condizionale specificato e la matrice di varianza condizionale.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.