Combinazione di due matrici di covarianza


11

Sto calcolando la covarianza di una distribuzione in parallelo e ho bisogno di combinare i risultati distribuiti in singolare gaussiano. Come unisco i due?

L'interpolazione lineare tra i due funziona quasi, se sono distribuiti e dimensionati in modo simile.

Wikipedia fornisce un forumla in fondo per la combinazione, ma non sembra giusto; due distribuzioni identiche dovrebbero avere la stessa covarianza, ma la formula in fondo alla pagina raddoppia la covarianza.

C'è un modo per combinare due matrici?


3
La formula di Wikipedia risponde alla tua domanda, Matt: potresti non aver notato che è una formula parziale dove in seguito devi dividere per la dimensione del campione.
whuber

1
L'ho capito ora, con il tuo aiuto - se lo inserisci in una risposta, lo segnerò come risposta.
Matt Kemp,

Risposte:


12

Questa domanda si presenta molto in varie forme. Ciò che è comune a loro è

Come posso combinare le statistiche basate sul momento che sono state calcolate da sottoinsiemi disgiunti dei miei dati?

L'applicazione più semplice riguarda i dati che sono stati suddivisi in due gruppi. Conosci le dimensioni del gruppo e il gruppo significa. Solo in termini di queste quattro quantità, qual è la media complessiva dei dati?

Altre applicazioni generalizzano dai mezzi alle varianze, deviazioni standard, matrici di covarianza, asimmetria e statistiche multivariate; e potrebbe coinvolgere più sottogruppi di dati. Si noti che molte di queste quantità sono combinazioni di momenti in qualche modo complicate: la deviazione standard, ad esempio, è la radice quadrata di una combinazione quadratica del primo e del secondo momento (quadrato medio e medio).

Tutti questi casi possono essere facilmente gestiti riducendo i vari momenti a somme, perché le somme sono ovviamente e facilmente combinabili: vengono aggiunte. Matematicamente, si riduce a questo: hai un batch di datiche sono stati separati in gruppi disgiunti di dimensioni:. Chiamiamo il° gruppo. Per definizione, ilesimo momento di qualsiasi batch di datiè la media diX=(x1,x2,,xn)j1,j2,,jg(x1,x2,,xj1;xj1+1,,xj1+j2;xj1+j2+1,;;,xn)iX(i)=(xji+1,xji+2,,xji+1)ky1,,yjkth poteri,

μk(y)=(y1k+y2k++yjk)/j.

Ovviamente è la somma dei poteri. Pertanto, facendo riferimento alla nostra precedente scomposizione dei dati in sottogruppi , possiamo suddividere una somma di poteri in gruppi di somme, ottenendojμk(y)kgn

nμk(X)=(x1k+x2k++xnk)=(x1k+x2k++xj1k)++(xj1++jg1+1k+xj1++jg1+2k++xnk)=j1μk(X(1))+j2μk(X(2))++jgμk(X(g)).

La divisione per mostra il esimo momento dell'intero batch in termini di esimi momenti dei suoi sottogruppi.nkk

Nella presente domanda, le voci nella matrice di covarianza sono, ovviamente, le covarianze, che sono espresse in termini di secondi e primi momenti multivariati. La parte chiave del calcolo si riduce a questo: ad ogni passo ti sarai concentrato su due particolari componenti dei tuoi dati multivariati; Chiamiamoli e . I numeri che stai guardando sono nel moduloxy

((x1,y1),(x2,y2),,(xn,yn)),

suddiviso come prima in gruppi . Per ogni gruppo conosci la somma media dei prodotti di : questo è il momento multivariato, . Per combinare questi valori di gruppo, li moltiplicherai per le dimensioni del gruppo, sommerai quei risultati e dividerai il totale per .x i y i ( 1 , 1 ) μ ( 1 , 1 ) ngxiyi(1,1)μ(1,1)n

Per applicare questo approccio è necessario pensare al futuro : non è possibile combinare, diciamo, covarianze se si conoscono solo le covarianze e le dimensioni dei sottogruppi: è inoltre necessario conoscere i mezzi dei sottogruppi (perché i mezzi sono coinvolti in modo essenziale in tutte le formule di covarianza) o qualcosa di algebricamente riducibile ai mezzi. Potrebbe anche essere necessario prestare attenzione alle costanti che compaiono nelle formule; la trappola principale per gli incauti è quella di confondere una "covarianza campionaria" (che comporta una somma di prodotti divisa per ) con una "covarianza di popolazione" (dove la divisione è per ). Questo non introduce nulla di nuovo; devi solo ricordare di moltiplicare la covarianza del campione per (o la covarianza di gruppo pern n - 1 j i - 1 n j in1nn1ji1 ) per recuperare la somma, piuttosto che per (o ).nji


Oh, sì: riguardo alla domanda attuale. La formula fornita nell'articolo di Wikipedia è data in termini di mezzi di gruppo (primi momenti) e il gruppo somma di prodotti. Come ho descritto sopra, questi verranno combinati aggiungendoli e quindi regolando i risultati con una divisione per ottenere le covarianze. La divisione finale per non viene mostrata.n


Sono un po 'confuso riguardo alla definizione del k-esimo momento. Stai assumendo zero dati medi?
reschu

@reschu Sembra che tu stia pensando ai momenti centrali . Per essere sicuro che questo post fosse compreso correttamente, ho definito cosa intendevo con " moment". La definizione appare appena prima della prima formula. kth
whuber

May Bad! Stavo mescolando momenti "centrali" e "grezzi". Grazie per il chiarimento!
reschu,

Penso che "conoscere i mezzi delle dimensioni dei sottogruppi" nel penultimo paragrafo dovrebbe invece leggere "conoscere i mezzi dei sottogruppi"? (Esito a modificarlo da solo poiché non mi sono preoccupato di studiare la risposta con molta attenzione)
Juho Kokkala

@Juho Hai ragione. Grazie per averlo notato!
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.