Come calcolare la varianza aggregata di due o più gruppi dati le varianze, le medie e le dimensioni del campione conosciute?


32

Supponiamo che ci siano elementi divisi in due gruppi ( e ). La varianza del primo gruppo è e la varianza del secondo gruppo è . Si presume che gli elementi stessi siano sconosciuti, ma conosco i mezzi e .m+nmnσm2σn2μmμn

C'è un modo per calcolare la varianza combinata ?σ(m+n)2

La varianza non deve essere imparziale, quindi il denominatore è e non .(m+n)(m+n1)


Quando dici di conoscere i mezzi e le varianze di questi gruppi, sono parametri o valori di esempio? Se sono mezzi / varianze di esempio non dovresti usare e ...σμσ
Jonathan Christensen

Ho appena usato i simboli come rappresentazione. Altrimenti, sarebbe stato difficile spiegare il mio problema.
user1809989

1
Per i valori di esempio, usiamo solitamente lettere latine (es. e ). Le lettere greche sono generalmente riservate ai parametri. L'uso dei simboli "corretti" (previsti) ti aiuterà a comunicare più chiaramente. sms
Jonathan Christensen il

Nessun problema, lo seguirò d'ora in poi! Saluti
user1809989

1
@Jonathan Poiché questa non è una domanda su campioni o stime, si può legittimamente ritenere che e siano la vera media e varianza della distribuzione empirica di una serie di dati, giustificando in tal modo l'uso convenzionale del greco lettere piuttosto che lettere latine per fare riferimento a loro. σ 2μσ2
whuber

Risposte:


36

Usa le definizioni di media

μ1:n=1ni=1nxi

e varianza del campione

σ1:n2=1ni=1n(xiμ1:n)2=n1n(1n1i=1n(xiμ1:n)2)

(l'ultimo termine tra parentesi è lo stimatore di varianza imparziale spesso calcolato di default nel software statistico) per trovare la somma dei quadrati di tutti i dati . Ordiniamo gli indici modo che designi gli elementi del primo gruppo e designi gli elementi del secondo gruppo. Spezza quella somma di quadrati per gruppo e riesprimi i due pezzi in termini di varianze e mezzi dei sottoinsiemi dei dati: i i = 1 , , n i = n + 1 , , n + mxiii=1,,ni=n+1,,n+m

(m+n)(σ1:m+n2+μ1:m+n2)=i=11:n+mxi2=i=1nxi2+i=n+1n+mxi2=n(σ1:n2+μ1:n2)+m(σ1+n:m+n2+μ1+n:m+n2).

Algebricamente risolvendolo per in termini di altri rendimenti di quantità (conosciuti)σm+n2

σ1:m+n2=n(σ1:n2+μ1:n2)+m(σ1+n:m+n2+μ1+n:m+n2)m+nμ1:m+n2.

Naturalmente, utilizzando lo stesso approccio, può essere espresso in termini di gruppo significa anche.μ1:m+n=(nμ1:n+mμ1+n:m+n)/(m+n)


Un collaboratore anonimo sottolinea che quando le medie del campione sono uguali (in modo che ), la soluzione per è una media ponderata delle varianze del campione di gruppo.μ1:n=μ1+n:m+n=μ1:m+nσm+n2


4
Il tag "compiti a casa" non significa che la domanda sia elementare o stupida: viene utilizzata per domande di studio autonomo che possono anche includere query a livello di ricerca. Distingue le domande di routine, più o meno senza contesto (del tipo che potrebbe normalmente abbellire il forum di matematica) da domande specifiche applicate.
whuber

Non riesco a capire il tuo primo passaggio: In in particolare ottengo che richiede Mi manca qualcosa? Potresti spiegarlo per favore? n(σ2+μ2)=(xμ)2+nμ2=?x2[(xμ)2+μ2]=[x22xμ]μ=0
DarioP

2
@Dario
(xμ)2+nμ2=(x22μx+nμ2)+nμ2=x22nμ2+2nμ2=x2.
whuber

Oh sì, ho fatto uno stupido errore di segno nella mia derivazione, ora è chiaro, grazie !!
DarioP

4
Immagino che questo possa essere esteso a un numero arbitrario di campioni purché tu abbia la media e la varianza per ciascuno. Calcolo pool (orientato) deviazione standard R è semplicemente sqrt(weighted.mean(u^2 + rho^2, n) - weighted.mean(u, n)^2)dove n, ue rhosono vettori di uguale lunghezza. Ad esempio n=c(10, 14, 9)per tre campioni.
Jonas Lindeløv,

3

In questa risposta userò la notazione standard per medie campionarie e varianze campionarie, piuttosto che la notazione usata nella domanda. Usando la notazione standard, in O'Neill (2014) (Risultato 1) è possibile trovare un'altra formula per la varianza campionaria in pool di due gruppi :

spooled2=1n1+n21[(n11)s12+(n21)s22+n1n2n1+n2(x¯1x¯2)2].

Questa formula funziona direttamente con le medie campionarie sottostanti e le varianze campionarie dei due sottogruppi e non richiede il calcolo intermedio della media campionaria raggruppata. (Prova del risultato in un documento collegato.)


-3

Sì, data la media, il conteggio dei campioni e la varianza o la deviazione standard di ciascuno di due o più gruppi di campioni, è possibile calcolare esattamente la varianza o la deviazione standard del gruppo combinato.

Questa pagina web descrive come farlo e perché funziona; include anche il codice sorgente in Perl: http://www.burtonsys.com/climate/composite_standard_deviations.html


A proposito, contrariamente alla risposta di cui sopra,

n(σ2+μ2)    i=1nxi2

Guarda tu stesso, ad es. In R:

> x = rnorm (10,5,2)
> x
 [1] 6.515139 8.273285 2.879483 3.624233 6.199610 3.683164 4.921028 8.084591
 [9] 2.974520 6.049962
> media (x)
[1] 5.320502
> sd (x)
[1] 2.007519
> somma (x ** 2)
[1] 319.3486
> 10 * (media (x) ** 2 + sd (x) ** 2)
[1] 323.3787

è perché hai dimenticato il fattore n-1, ad esempio prova con n * (media (x) ** 2 + sd (x) ** 2 / (n) * (n-1))
user603

user603, di che diavolo stai parlando?
Dave Burton,

3
Rsd(c(-1,1))1.4142141sqrt(9/10)*sd(x)sd(x)σμn <- 10; x <- rnorm(n,5,2); m <- mean(x); s <- sd(x) * sqrt((n-1)/n); m2 <- sum(x^2); c(lhs=n * (m^2 + s^2), rhs=m2)
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.