Combinazione di due matrici di covarianza

Sto calcolando la covarianza di una distribuzione in parallelo e ho bisogno di combinare i risultati distribuiti in singolare gaussiano. Come unisco i due?

L'interpolazione lineare tra i due funziona quasi, se sono distribuiti e dimensionati in modo simile.

Wikipedia fornisce un forumla in fondo per la combinazione, ma non sembra giusto; due distribuzioni identiche dovrebbero avere la stessa covarianza, ma la formula in fondo alla pagina raddoppia la covarianza.

C'è un modo per combinare due matrici?

covariance moments

— Matt Kemp
fonte

La formula di Wikipedia risponde alla tua domanda, Matt: potresti non aver notato che è una formula parziale dove in seguito devi dividere per la dimensione del campione.

— whuber

L'ho capito ora, con il tuo aiuto - se lo inserisci in una risposta, lo segnerò come risposta.

— Matt Kemp,

Questa domanda si presenta molto in varie forme. Ciò che è comune a loro è

Come posso combinare le statistiche basate sul momento che sono state calcolate da sottoinsiemi disgiunti dei miei dati?

L'applicazione più semplice riguarda i dati che sono stati suddivisi in due gruppi. Conosci le dimensioni del gruppo e il gruppo significa. Solo in termini di queste quattro quantità, qual è la media complessiva dei dati?

Altre applicazioni generalizzano dai mezzi alle varianze, deviazioni standard, matrici di covarianza, asimmetria e statistiche multivariate; e potrebbe coinvolgere più sottogruppi di dati. Si noti che molte di queste quantità sono combinazioni di momenti in qualche modo complicate: la deviazione standard, ad esempio, è la radice quadrata di una combinazione quadratica del primo e del secondo momento (quadrato medio e medio).

Tutti questi casi possono essere facilmente gestiti riducendo i vari momenti a somme, perché le somme sono ovviamente e facilmente combinabili: vengono aggiunte. Matematicamente, si riduce a questo: hai un batch di datiche sono stati separati in gruppi disgiunti di dimensioni:. Chiamiamo il° gruppo. Per definizione, ilesimo momento di qualsiasi batch di datiè la media di $X = (x_1, x_2, \ldots, x_n)$ $j_1, j_2, \ldots, j_g$ $(x_1, x_2, \ldots, x_{j_1}; x_{j_1+1}, \ldots, x_{j_1+j_2}; x_{j_1+j_2+1}, \ldots; \ldots; \ldots, x_n)$ $i$ $X_{(i)} = (x_{j_i+1},x_{j_i+2}, \ldots, x_{j_{i+1}})$ $k$ $y_1, \ldots, y_j$ $k$ th poteri,

μ_{k} (y) = (y_{1}^{k} + y_{2}^{k} + \dots + y_{j}^{k}) / j .

$\mu_k(y) = \left(y_1^k + y_2^k + \cdots + y_j^k\right)/j.$

Ovviamente è la somma dei poteri. Pertanto, facendo riferimento alla nostra precedente scomposizione dei dati in sottogruppi , possiamo suddividere una somma di poteri in gruppi di somme, ottenendo $j \mu_k(y)$ $k$ $g$ $n$

\begin{aligned} n μ_{k} (X) & = (x_{1}^{k} + x_{2}^{k} + \dots + x_{n}^{k}) \\ = (x_{1}^{k} + x_{2}^{k} + \dots + x_{j_{1}}^{k}) + \dots + (x_{j_{1} + \dots + j_{g - 1} + 1}^{k} + x_{j_{1} + \dots + j_{g - 1} + 2}^{k} + \dots + x_{n}^{k}) \\ = j_{1} μ_{k} (X_{(1)}) + j_{2} μ_{k} (X_{(2)}) + \dots + j_{g} μ_{k} (X_{(g)}) . \end{aligned}

$\eqalign{ n \mu_k(X) &= \left(x_1^k + x_2^k + \cdots + x_n^k\right) \\ &= \left(x_1^k + x_2^k + \cdots + x_{j_1}^k\right) + \cdots + \left(x_{j_1+\cdots+j_{g-1}+1}^k + x_{j_1+\cdots+j_{g-1}+2}^k + \cdots + x_n^k\right)\\ &= j_1 \mu_k(X_{(1)}) + j_2 \mu_k(X_{(2)}) + \cdots + j_g \mu_k(X_{(g)}). }$

La divisione per mostra il esimo momento dell'intero batch in termini di esimi momenti dei suoi sottogruppi. $n$ $k$ $k$

Nella presente domanda, le voci nella matrice di covarianza sono, ovviamente, le covarianze, che sono espresse in termini di secondi e primi momenti multivariati. La parte chiave del calcolo si riduce a questo: ad ogni passo ti sarai concentrato su due particolari componenti dei tuoi dati multivariati; Chiamiamoli e . I numeri che stai guardando sono nel modulo $x$ $y$

((x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{n}, y_{n})),

$((x_1,y_1), (x_2,y_2), \ldots, (x_n,y_n)),$

suddiviso come prima in gruppi . Per ogni gruppo conosci la somma media dei prodotti di : questo è il momento multivariato, . Per combinare questi valori di gruppo, li moltiplicherai per le dimensioni del gruppo, sommerai quei risultati e dividerai il totale per . $g$ $x_iy_i$ $(1,1)$ $\mu_{(1,1)}$ $n$

Per applicare questo approccio è necessario pensare al futuro : non è possibile combinare, diciamo, covarianze se si conoscono solo le covarianze e le dimensioni dei sottogruppi: è inoltre necessario conoscere i mezzi dei sottogruppi (perché i mezzi sono coinvolti in modo essenziale in tutte le formule di covarianza) o qualcosa di algebricamente riducibile ai mezzi. Potrebbe anche essere necessario prestare attenzione alle costanti che compaiono nelle formule; la trappola principale per gli incauti è quella di confondere una "covarianza campionaria" (che comporta una somma di prodotti divisa per ) con una "covarianza di popolazione" (dove la divisione è per ). Questo non introduce nulla di nuovo; devi solo ricordare di moltiplicare la covarianza del campione per (o la covarianza di gruppo per $n-1$ $n$ $n-1$ $j_i-1$ ) per recuperare la somma, piuttosto che per (o ). $n$ $j_i$

Oh, sì: riguardo alla domanda attuale. La formula fornita nell'articolo di Wikipedia è data in termini di mezzi di gruppo (primi momenti) e il gruppo somma di prodotti. Come ho descritto sopra, questi verranno combinati aggiungendoli e quindi regolando i risultati con una divisione per ottenere le covarianze. La divisione finale per non viene mostrata. $n$

— whuber
fonte

Sono un po 'confuso riguardo alla definizione del k-esimo momento. Stai assumendo zero dati medi?

— reschu

@reschu Sembra che tu stia pensando ai momenti centrali . Per essere sicuro che questo post fosse compreso correttamente, ho definito cosa intendevo con " moment". La definizione appare appena prima della prima formula.

k^{th}

$k^\text{th}$

— whuber

May Bad! Stavo mescolando momenti "centrali" e "grezzi". Grazie per il chiarimento!

— reschu,

Penso che "conoscere i mezzi delle dimensioni dei sottogruppi" nel penultimo paragrafo dovrebbe invece leggere "conoscere i mezzi dei sottogruppi"? (Esito a modificarlo da solo poiché non mi sono preoccupato di studiare la risposta con molta attenzione)

— Juho Kokkala

@Juho Hai ragione. Grazie per averlo notato!

— whuber