Questa domanda si presenta molto in varie forme. Ciò che è comune a loro è
Come posso combinare le statistiche basate sul momento che sono state calcolate da sottoinsiemi disgiunti dei miei dati?
L'applicazione più semplice riguarda i dati che sono stati suddivisi in due gruppi. Conosci le dimensioni del gruppo e il gruppo significa. Solo in termini di queste quattro quantità, qual è la media complessiva dei dati?
Altre applicazioni generalizzano dai mezzi alle varianze, deviazioni standard, matrici di covarianza, asimmetria e statistiche multivariate; e potrebbe coinvolgere più sottogruppi di dati. Si noti che molte di queste quantità sono combinazioni di momenti in qualche modo complicate: la deviazione standard, ad esempio, è la radice quadrata di una combinazione quadratica del primo e del secondo momento (quadrato medio e medio).
Tutti questi casi possono essere facilmente gestiti riducendo i vari momenti a somme, perché le somme sono ovviamente e facilmente combinabili: vengono aggiunte. Matematicamente, si riduce a questo: hai un batch di datiche sono stati separati in gruppi disgiunti di dimensioni:. Chiamiamo il° gruppo. Per definizione, ilesimo momento di qualsiasi batch di datiè la media diX=(x1,x2,…,xn)j1,j2,…,jg(x1,x2,…,xj1;xj1+1,…,xj1+j2;xj1+j2+1,…;…;…,xn)iX(i)=(xji+1,xji+2,…,xji+1)ky1,…,yjkth poteri,
μk(y)=(yk1+yk2+⋯+ykj)/j.
Ovviamente è la somma dei poteri. Pertanto, facendo riferimento alla nostra precedente scomposizione dei dati in sottogruppi , possiamo suddividere una somma di poteri in gruppi di somme, ottenendojμk(y)kgn
nμk(X)=(xk1+xk2+⋯+xkn)=(xk1+xk2+⋯+xkj1)+⋯+(xkj1+⋯+jg−1+1+xkj1+⋯+jg−1+2+⋯+xkn)=j1μk(X(1))+j2μk(X(2))+⋯+jgμk(X(g)).
La divisione per mostra il esimo momento dell'intero batch in termini di esimi momenti dei suoi sottogruppi.nkk
Nella presente domanda, le voci nella matrice di covarianza sono, ovviamente, le covarianze, che sono espresse in termini di secondi e primi momenti multivariati. La parte chiave del calcolo si riduce a questo: ad ogni passo ti sarai concentrato su due particolari componenti dei tuoi dati multivariati; Chiamiamoli e . I numeri che stai guardando sono nel moduloxy
((x1,y1),(x2,y2),…,(xn,yn)),
suddiviso come prima in gruppi . Per ogni gruppo conosci la somma media dei prodotti di : questo è il momento multivariato, . Per combinare questi valori di gruppo, li moltiplicherai per le dimensioni del gruppo, sommerai quei risultati e dividerai il totale per .x i y i ( 1 , 1 ) μ ( 1 , 1 ) ngxiyi(1,1)μ(1,1)n
Per applicare questo approccio è necessario pensare al futuro : non è possibile combinare, diciamo, covarianze se si conoscono solo le covarianze e le dimensioni dei sottogruppi: è inoltre necessario conoscere i mezzi dei sottogruppi (perché i mezzi sono coinvolti in modo essenziale in tutte le formule di covarianza) o qualcosa di algebricamente riducibile ai mezzi. Potrebbe anche essere necessario prestare attenzione alle costanti che compaiono nelle formule; la trappola principale per gli incauti è quella di confondere una "covarianza campionaria" (che comporta una somma di prodotti divisa per ) con una "covarianza di popolazione" (dove la divisione è per ). Questo non introduce nulla di nuovo; devi solo ricordare di moltiplicare la covarianza del campione per (o la covarianza di gruppo pern n - 1 j i - 1 n j in−1nn−1ji−1 ) per recuperare la somma, piuttosto che per (o ).nji
Oh, sì: riguardo alla domanda attuale. La formula fornita nell'articolo di Wikipedia è data in termini di mezzi di gruppo (primi momenti) e il gruppo somma di prodotti. Come ho descritto sopra, questi verranno combinati aggiungendoli e quindi regolando i risultati con una divisione per ottenere le covarianze. La divisione finale per non viene mostrata.n