Questa è una vecchia domanda ma la risposta accettata non è in realtà corretta o completa. L'utente desidera calcolare la deviazione standard su dati di 12 mesi in cui la deviazione media e standard è già calcolata su ogni mese. Supponendo che il numero di campioni in ogni mese sia lo stesso, è possibile calcolare la media e la varianza del campione nel corso dell'anno dai dati di ogni mese. Per semplicità supponiamo che abbiamo due set di dati:
X= { x1, . . . . XN}
Y= { y1, . . . ., yN}
μXμyσ2Xσ2y
Ora vogliamo calcolare le stesse stime per
Z= { x1, . . . . , xN, y1, . . . , yN}
μXσ2X
μX= ∑Ni = 1XioN
σ2X= ∑Ni = 1X2ioN- μ2X
Per stimare la media e la varianza rispetto all'insieme totale dobbiamo calcolare:
μz= ∑Ni = 1Xio+ ∑Ni = 1yio2 N= ( μX+ μy) / 2
σ2z= ∑Ni = 1X2io+ ∑Ni = 1y2io2 N- μ2z
σ2z= 12( ∑Ni = 1X2ioN- μ2X+ ∑Ni = 1y2ioN- μ2y) + 12( μ2X+ μ2y) - ( μX+ μy2)2
σ2z= 12( σ2X+ σ2y) + ( μX- μy2)2
Quindi, se si ha la varianza su ciascun sottoinsieme e si desidera la varianza sull'intero insieme, è possibile calcolare la media delle varianze di ciascun sottoinsieme se tutte hanno la stessa media. Altrimenti, è necessario aggiungere la varianza della media di ciascun sottoinsieme.
Diciamo che nella prima metà dell'anno produciamo esattamente 1000 MWh al giorno e nella seconda metà produciamo 2000 MWh al giorno. Quindi la media e la varianza della produzione di energia nella prima e seconda metà sono 1000 e 2000 per media e la varianza è 0 per entrambe le metà. Ora ci sono due cose diverse che potrebbero interessarci:
1- Vogliamo calcolare la varianza della produzione di energia per tutto l'anno : quindi facendo una media delle due varianze arriviamo a zero, il che non è corretto poiché l'energia al giorno per tutto l'anno non è costante. In questo caso è necessario aggiungere la varianza di tutti i mezzi di ciascun sottoinsieme. Matematicamente in questo caso la variabile casuale di interesse è la produzione di energia al giorno. Abbiamo statistiche di esempio su sottoinsiemi e vogliamo calcolare le statistiche di esempio su un tempo più lungo.
2- Vogliamo calcolare la varianza della produzione di energia all'anno: in altre parole siamo interessati a quanta produzione di energia cambia da un anno all'altro. In questo caso la media della varianza porta alla risposta corretta che è 0, poiché in ogni anno produciamo esattamente 1500 MHW in media. Matematicamente in questo caso la variabile casuale di interesse è la media della produzione di energia al giorno in cui la media viene effettuata durante l'intero anno.