È possibile trovare la deviazione standard combinata?


32

Supponiamo che io abbia 2 set:

Impostare A : numero di elementi , ,μ = 2,4 σ = 0,8n=10μ=2.4σ=0.8

Imposta B : numero di elementi , ,μ = 2 σ = 1.2n=5μ=2σ=1.2

Riesco a trovare facilmente la media combinata ( ), ma come posso trovare la deviazione standard combinata?μ


Risposte:


30

Quindi, se vuoi solo riunire due di questi campioni in uno, hai:

S1=1n1Σio=1n1(Xio-y¯1)2

s2=1n2Σi=1n2(yiy¯2)2

dove e sono mezzi di esempio e e sono deviazioni standard di esempio. ˉ y 2s1s2y¯1y¯2S1S2

Per sommarli devi:

S=1n1+n2Σio=1n1+n2(zio-y¯)2

che non è così semplice poiché la nuova media è diversa da e :ˉ y 1 ˉ y 2y¯y¯1y¯2

y¯=1n1+n2Σio=1n1+n2zio=n1y¯1+n2y¯2n1+n2

La formula finale è:

s=n1s12+n2s22+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n2

Per la versione di deviazione standard correntemente usata (" -denominator") di deviazione standard, i risultati per i mezzi sono come prima, man1

s=(n11)s12+(n21)s22+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n21

Puoi leggere maggiori informazioni qui: http://en.wikipedia.org/wiki/Standard_deviation


1
Se l'OP sta usando la versione corretta di Bessel ( -denominator per la varianza) della deviazione standard del campione (come quasi tutti coloro che chiederanno qui lo faranno), questa risposta non darà loro quello che cercano. n1
Glen_b -Restate Monica

In tal caso, questa sezione fa il trucco. (modifica per collegarti alla vecchia versione di Wikipedia dal momento che è stata rimossa da quella nuova)
Glen_b -Reinstate Monica

@Glen_b Buona cattura. Puoi modificarlo nella risposta per renderlo più utile allora?
sashkello,

Sono andato su Wikipedia per trovare la prova, ma sfortunatamente questa formula non è più lì. Ti interessa elaborare (la prova) o migliorare Wikipedia? :)
Rauni Lillemets,


8

Questo ovviamente si estende ai gruppi :K

s=k=1K(nk1)sk2+nk(y¯ky¯)2(k=1Knk)1

7
Questo è un po 'breve per gli standard. Potresti dire qualcosa in più su come questo è derivato e perché questa è la risposta corretta?
Sycorax dice di reintegrare Monica il

1

Ho avuto lo stesso problema: avendo la deviazione standard, i mezzi e le dimensioni di diversi sottoinsiemi con intersezione vuota, calcola la deviazione standard dell'unione di quei sottoinsiemi.

Mi piace la risposta di sashkello e Glen_b ♦ , ma volevo trovarne una prova. L'ho fatto in questo modo, e lo lascio qui nel caso sia di aiuto per chiunque.


Quindi lo scopo è quello di vedere che effettivamente:

s=(n1s12+n2s22+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n2)1/2

Step by step:

(n1s12+n2s22+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n2)1/2=(i=1n1(xiy1¯)2+i=1n2(yiy2¯)2+n1(y¯1y¯)2+n2(y¯2y¯)2n1+n2)1/2=(i=1n1((xiy1¯)2+(y¯1y¯)2)+i=1n2((yiy2¯)2+(y¯2y¯)2)n1+n2)1/2=(i=1n1(xi2+y¯2+2y1¯22xiy1¯2y1¯y¯)n1+n2+i=1n2(yi2+y¯2+2y2¯22yiy2¯2y2¯y¯)n1+n2)1/2=(i=1n1(xi2+y¯22y¯j=1n1xjn1)+2n1y1¯22y1¯i=1n1xin1+n2+i=1n2(yi2+y¯22y¯j=1n2yjn2)+2n2y2¯22y2¯i=1n2yin1+n2)1/2=(i=1n1(xi2+y¯22y¯j=1n1xjn1)+2n1y1¯22y1¯n1y1¯n1+n2+i=1n2(yi2+y¯22y¯j=1n2yjn2)+2n2y2¯22y2¯n2y2¯n1+n2)1/2=(i=1n1(xi2+y¯22y¯j=1n1xjn1)n1+n2+i=1n2(yi2+y¯22y¯j=1n2yjn2)n1+n2)1/2

Now the trick is to realize that we can reorder the sums: since each

2y¯j=1n1xjn1
term appears n1 times, we can re-write the numerator as
i=1n1(xi2+y¯22y¯xi),

and hence, continuing with the equality chain:

=(i=1n1(xiy¯)2n1+n2+i=1n2(yiy¯)2n1+n2)1/2=(i=1n1+n2(ziy¯)2n1+n2)1/2=s

This been said, there is probably a simpler way to do this.

The formula can be extended to k subsets as stated before. The proof would be induction on the number of sets. The base case is already proven, and for the induction step you should apply a similar equality chain to the latter.


I don't see how the question is clear. Are the two data sets assumed to come from the same distribution? Does the OP have the actual observations available or just the sample estimates of mean and standard deviation?
Michael R. Chernick

Yes they are assumed to come from the same distribution. Observations are not available, just the mean and standard deviation of the subsets.
iipr

Then why are using a formula that involves the individual observations?
Michael R. Chernick

Maybe my answer is not clear. I am simply posting a mathematical proof of the above formula that allows to compute s from the standard deviations, means and sizes of two subsets. In the formula there is no reference to the individual observations. In the proof there is, but its just a proof, and from my point of view, correct.
iipr
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.