Perché la varianza di un campione cambia se le osservazioni sono duplicate?


25

Si dice che la varianza sia una misura della diffusione. Quindi, avevo pensato che la varianza di 3,5è uguale alla varianza di 3,3,5,5poiché i numeri sono equamente distribuiti. Ma non è così, la varianza di 3,5è 2mentre la varianza di 3,3,5,5è 1 1/3.

Questo mi confonde, data la spiegazione che la varianza dovrebbe essere una misura di diffusione.

Quindi, in quel contesto, cosa significa misura della diffusione ?

Risposte:


32

Se si definisce la varianza come Sn2=MSE=1nΣio=1n(Xio-X¯)2- simile alla varianza della popolazione ma con media campionaria perμ, entrambi i campioni avrebbero la stessa varianza.

Quindi la differenza è puramente dovuta alla correzione di Bessel nella solita formula per la varianza del campione ( Sn-12=nn-1MSE=nn-11nΣio=1n(Xio-X¯)2=1n-1Σio=1n(Xio-X¯)2, che regola il fatto che lamediadelcampioneè più vicina ai dati rispetto alla media della popolazione, al fine di renderla imparziale (prendendo il giusto valore "on media").

n-1nn

Sn2

La varianza in sé non è direttamente una misura della diffusione. Se raddoppio tutti i valori nel mio set di dati, sostengo che sono due volte come "spread". Ma la varianza aumenta di un fattore 4. Quindi, più di solito, si dice che la deviazione standard, piuttosto che la varianza, sia una misura della diffusione.

Sn-1

In piccoli campioni la correzione di Bessel rende la deviazione standard un po 'meno intuitiva come misura di diffusione a causa di quell'effetto (che la duplicazione del campione cambia il valore). Ma molte misure di diffusione mantengono lo stesso valore quando si duplica il campione; Ne citerò alcuni -

  • Sn

  • la media (assoluta) deviazione dalla media

  • la deviazione (assoluta) mediana dalla mediana

  • l'intervallo interquartile (almeno per alcune definizioni di quartili di esempio)


3
"Non c'è un motivo particolare per cui devi usare lo stimatore imparziale" - in effetti non dovresti necessariamente stimare nulla. La varianza di {3, 5}se stessa è 1, per la prima formula. Come fai notare, l'interrogante ha tentato di stimare la varianza di una popolazione da cui si presume che sia un campione, ma chissà se lo è o no.
Steve Jessop,

1

VX=EVX+VEX

La solita formula di varianza del campione compensa ciò e la varianza della media del campione si ridimensiona inversamente con la dimensione del campione.

Come esempio estremo, prelevare un singolo campione mostrerà sempre una varianza del campione di 0, ovviamente non indicando una varianza di 0 per la distribuzione sottostante.

2/14/32/314


2
Combinando gli stimatori con le statistiche , questa risposta confonde, piuttosto che chiarire, la domanda. Leggi la risposta originale di Glen_b in questa discussione. L'argomento nei primi due paragrafi è misterioso perché sembra irrilevante per la domanda.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.