Come "sommare" una deviazione standard?


68

Ho una media mensile per un valore e una deviazione standard corrispondente a quella media. Ora sto calcolando la media annuale come la somma delle medie mensili, come posso rappresentare la deviazione standard per la media sommata?

Ad esempio, considerando l'output di un parco eolico:

Month        MWh     StdDev
January      927     333 
February     1234    250
March        1032    301
April        876     204
May          865     165
June         750     263
July         780     280
August       690     98
September    730     76
October      821     240
November     803     178
December     850     250

Possiamo dire che nell'anno medio il parco eolico produce 10.358 MWh, ma qual è la deviazione standard corrispondente a questa cifra?


3
Una discussione a seguito di una risposta ora cancellata ha rilevato una possibile ambiguità in questa domanda: cerchi la DS delle medie mensili o vuoi recuperare la SD di tutti i valori originali da cui sono state costruite quelle medie? Quella risposta ha anche correttamente sottolineato che se si desidera quest'ultima, sarà necessario il numero di valori coinvolti in ciascuna delle medie mensili.
whuber

1
Un commento ad un'altra risposta cancellata ha sottolineato che è strano calcolare una media come somma : sicuramente intendi che stai facendo la media delle medie mensili. Ma se quello che vuoi è stimare la media di tutti i dati originali, allora una tale procedura non è di solito buona: è necessaria una media ponderata . E ovviamente non è possibile dare una buona risposta alla tua domanda sulla "DS per la media sommata" fino a quando non sarà chiaro quale sia la "media sommata" e che cosa intende rappresentare. Per favore, chiariscilo per noi.
whuber

@whuber Ho aggiunto un esempio per chiarire. Matematicamente credo che la somma delle medie sia uguale alla media mensile dei tempi 12.
klonq

2
Sì, klonq, questa è una richiesta molto ragionevole. Tuttavia, queste risposte sono state cancellate dal loro proprietario, non dalla comunità. Per preservare il loro valore, ho tentato qui di trasmettere (la mia opinione) le idee chiave che sorgono in quelle risposte e nei loro commenti. A proposito, le tue recenti modifiche sono abbastanza utili: alla gente piace vedere i dati di esempio.
whuber

1
Benvenuto nel sito, @Hayden. Questa non è una risposta alla domanda del PO. Utilizza solo il campo "La tua risposta" per fornire risposte. Se hai una domanda di follow-up, fai clic su [ASK QUESTION]in alto e chiedila lì, quindi possiamo aiutarti correttamente. Dato che sei nuovo qui, potresti voler partecipare al nostro tour , che contiene informazioni per i nuovi utenti.
gung - Ripristina Monica

Risposte:


66

Risposta breve: fai una media delle varianze ; quindi puoi prendere la radice quadrata per ottenere la deviazione standard media .


Esempio

Month          MWh  StdDev  Variance
==========   =====  ======  ========
January        927    333     110889
February      1234    250      62500
March         1032    301      90601
April          876    204      41616
May            865    165      27225
June           750    263      69169
July           780    280      78400
August         690     98       9604
September      730     76       5776
October        821    240      57600
November       803    178      31684
December       850    250      62500
===========  =====  =======  =======
Total        10358            647564
÷12            863    232      53964

E quindi la deviazione standard media èsqrt(53,964) = 232


Dalla somma delle variabili casuali normalmente distribuite :

Se e sono variabili casuali indipendenti che sono normalmente distribuite (e quindi anche congiuntamente), allora anche la loro somma viene normalmente distribuitaYXY

... la somma di due variabili casuali distribuite normalmente indipendenti è normale, con la media che è la somma dei due mezzi e la sua varianza è la somma delle due varianze

E dalla distribuzione della somma normale di Wolfram Alpha :

XY(μX,σX2)(μY,σY2)

PX+Y(u)=12π(σX2+σY2)e-[u-(μX+μY)]2/[2(σX2+σY2)]

che ha una media

μX+Y=μX+μY

e varianza

σX+Y2=σX2+σY2

Per i tuoi dati:

  • somma: 10,358 MWh
  • varianza: 647,564
  • deviazione standard: 804.71 ( sqrt(647564) )

inserisci qui la descrizione dell'immagine

Quindi per rispondere alla tua domanda:

  • Come "sommare" una deviazione standard ?
  • Li sommi quadraticamente:

    s = sqrt(s1^2 + s2^2 + ... + s12^2)
    

Concettualmente si sommano le varianze, quindi si prende la radice quadrata per ottenere la deviazione standard.


Poiché ero curioso, volevo conoscere la potenza media mensile media e la sua deviazione standard . Attraverso l'induzione, abbiamo bisogno di 12 distribuzioni normali che:

  • somma a una media di 10,358
  • somma a una varianza di 647,564

Sarebbe 12 distribuzioni mensili medie di:

  • media di 10,358/12 = 863.16
  • varianza di 647,564/12 = 53,963.6
  • deviazione standard di sqrt(53963.6) = 232.3

inserisci qui la descrizione dell'immagine

Possiamo controllare le nostre distribuzioni medie mensili aggiungendole 12 volte, per vedere che sono uguali alla distribuzione annuale:

  • Media: 863.16*12 = 10358 = 10,358( corretto )
  • Varianza: 53963.6*12 = 647564 = 647,564( corretto )

Nota : lo lascerò a qualcuno con una conoscenza della matematica del lattice esoterico per convertire le immagini delle mie formule e formula codein formule formattate con scambio di stack.

Modifica : ho spostato il corto, al punto, rispondi in alto. Perché oggi dovevo farlo di nuovo, ma volevo ricontrollare che faccio una media delle varianze .


3
Tutto ciò sembra presumere che i mesi non siano correlati - hai reso esplicito quel presupposto ovunque? Inoltre, perché dobbiamo introdurre la distribuzione normale? Se parliamo solo di varianza, allora questo sembra superfluo - per esempio, vedi la mia risposta qui
Macro

1
@Marco Perché penso meglio nelle immagini e rende tutto più facile da capire.
Ian Boyd,

2
@Marco Inoltre, credo che questa domanda sia iniziata sul sito stats.stackexchange (ora defunto). Un muro di formule è meno accessibile di trattamenti più semplici, grafici e meno rigorosi.
Ian Boyd,

2
Dubito che sia corretto. Immagina due set di dati con ciascuno solo una singola misurazione ciascuno. La loro varianza di ogni set è 0, ma il set di entrambe le misurazioni ha una varianza maggiore di 0 se i punti dati differiscono.
Njol,

1
@Njol, penso sia per questo che supponiamo che tutte le variabili abbiano una distribuzione normale. E possiamo farlo qui, perché parliamo di misurazione fisica. Nel tuo esempio entrambe le variabili non sono normalmente distribuite.
tworec,

11

Questa è una vecchia domanda ma la risposta accettata non è in realtà corretta o completa. L'utente desidera calcolare la deviazione standard su dati di 12 mesi in cui la deviazione media e standard è già calcolata su ogni mese. Supponendo che il numero di campioni in ogni mese sia lo stesso, è possibile calcolare la media e la varianza del campione nel corso dell'anno dai dati di ogni mese. Per semplicità supponiamo che abbiamo due set di dati:

X={X1,....XN}

Y={y1,....,yN}

μXμyσX2σy2

Ora vogliamo calcolare le stesse stime per

Z={X1,....,XN,y1,...,yN}

μXσX2

μX=Σio=1NXioN

σX2=Σio=1NXio2N-μX2

Per stimare la media e la varianza rispetto all'insieme totale dobbiamo calcolare:

μz=Σio=1NXio+Σio=1Nyio2N=(μX+μy)/2

σz2=Σio=1NXio2+Σio=1Nyio22N-μz2

σz2=12(Σio=1NXio2N-μX2+Σio=1Nyio2N-μy2)+12(μX2+μy2)-(μX+μy2)2

σz2=12(σX2+σy2)+(μX-μy2)2

Quindi, se si ha la varianza su ciascun sottoinsieme e si desidera la varianza sull'intero insieme, è possibile calcolare la media delle varianze di ciascun sottoinsieme se tutte hanno la stessa media. Altrimenti, è necessario aggiungere la varianza della media di ciascun sottoinsieme.

Diciamo che nella prima metà dell'anno produciamo esattamente 1000 MWh al giorno e nella seconda metà produciamo 2000 MWh al giorno. Quindi la media e la varianza della produzione di energia nella prima e seconda metà sono 1000 e 2000 per media e la varianza è 0 per entrambe le metà. Ora ci sono due cose diverse che potrebbero interessarci:

1- Vogliamo calcolare la varianza della produzione di energia per tutto l'anno : quindi facendo una media delle due varianze arriviamo a zero, il che non è corretto poiché l'energia al giorno per tutto l'anno non è costante. In questo caso è necessario aggiungere la varianza di tutti i mezzi di ciascun sottoinsieme. Matematicamente in questo caso la variabile casuale di interesse è la produzione di energia al giorno. Abbiamo statistiche di esempio su sottoinsiemi e vogliamo calcolare le statistiche di esempio su un tempo più lungo.

2- Vogliamo calcolare la varianza della produzione di energia all'anno: in altre parole siamo interessati a quanta produzione di energia cambia da un anno all'altro. In questo caso la media della varianza porta alla risposta corretta che è 0, poiché in ogni anno produciamo esattamente 1500 MHW in media. Matematicamente in questo caso la variabile casuale di interesse è la media della produzione di energia al giorno in cui la media viene effettuata durante l'intero anno.


1

Credo che ciò a cui potresti essere veramente interessato sia l' errore standard piuttosto che la deviazione standard.

L'errore standard della media (SEM) è la deviazione standard della stima della media campionaria di una media della popolazione, e questo ti darà una misura di quanto sia buona la tua stima MWh annuale.

n

S=S12+S22+...+S12212×n

1

Vorrei sottolineare ancora una volta l'erroneità in parte della risposta accettata. La formulazione della domanda porta alla confusione.

La domanda ha Average e StdDev di ogni mese, ma non è chiaro quale tipo di sottoinsieme viene utilizzato. È la media di 1 turbina eolica dell'intera azienda o la media giornaliera dell'intera azienda? Se è la media giornaliera per ogni mese, non è possibile sommare la media mensile per ottenere la media annuale perché non hanno lo stesso denominatore. Se è la media unitaria, dovrebbe essere la domanda

Possiamo dire che nell'anno medio ogni turbina nel parco eolico produce 10.358 MWh, ...

Invece di

Possiamo dire che nell'anno medio il parco eolico produce 10.358 MWh, ...

Inoltre, la deviazione standard o la varianza è il confronto con la media dell'insieme. NON contiene alcuna informazione relativa alla media dell'intero set.

Esempio di varianza

L'immagine non è necessaria molto corretta ma trasmette l'idea generale. Immaginiamo l'output di 1 parco eolico come nell'immagine. Come puoi vedere, la varianza "locale" non ha nulla a che fare con la varianza "globale", indipendentemente da come li aggiungi o moltiplichi. Non è possibile prevedere la varianza dell'anno utilizzando la varianza di 2 semestri. Quindi, nella risposta accettata, mentre il calcolo della somma è corretto, la divisione per 12 per ottenere il numero mensile non significa nulla. . Delle tre sezioni, la prima e l'ultima sono sbagliate, la seconda ha ragione.

Ancora una volta, è un'applicazione molto sbagliata, per favore non seguirla o potrebbe metterti nei guai. Calcolato solo per tutto, usando l'output annuale / mensile totale di ogni unità come punti dati a seconda che tu voglia un numero annuale o mensile, quella dovrebbe essere la risposta corretta. Probabilmente vuoi qualcosa del genere. Questi sono i miei numeri generati casualmente. Se hai i dati, il risultato nella cella O2 dovrebbe essere la tua risposta.

inserisci qui la descrizione dell'immagine


Grazie mille per l'immagine che mi ha aiutato molto a capire perché la risposta accettata è incompleta e potrebbe anche essere sbagliata. L'hai spiegato molto bene, grazie!
Kay,

Questo mostra il pericolo di votare. Le persone che votano sono le persone che non conoscono la risposta. Al contrario della codifica, le persone che votano sono le persone che fanno funzionare il codice, più vota, migliore è la risposta. Per statistica / matematica, più voti significa solo che è più attraente.
Tam Le
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.