Il motivo più ovvio è che spesso non esiste una sequenza temporale nei valori. Quindi, se si confondono i dati, non fa alcuna differenza nelle informazioni trasmesse dai dati. Se seguiamo il tuo metodo, ogni volta che mescoli i dati ottieni una varianza del campione diversa.
La risposta più teorica è che la varianza del campione stima la vera varianza di una variabile casuale. La vera varianza di una variabile casuale è
E [ ( X - E X ) 2 ] .X
E[(X−EX)2].
Qui rappresenta l'aspettativa o "valore medio". Quindi la definizione della varianza è la distanza media quadrata tra la variabile dal suo valore medio. Quando guardi questa definizione, qui non c'è un "ordine temporale" poiché non ci sono dati. È solo un attributo della variabile casuale.E
Quando raccogli dati iid da questa distribuzione, hai realizzazioni . Il modo migliore per stimare l'aspettativa è di prendere le medie del campione. La chiave qui è che abbiamo ottenuto i dati e quindi non è possibile ordinare i dati. Il campione x 1 , x 2 , … , x n è uguale al campione x 2 , x 5 , x 1 , x n . .x1,x2,…,xnx1,x2,…,xnx2,x5,x1,xn..
MODIFICARE
La varianza del campione misura un tipo specifico di dispersione per il campione, quello che misura la distanza media dalla media. Esistono altri tipi di dispersione come l'intervallo di dati e l'intervallo interquantile.
Anche se si ordinano i valori in ordine crescente, ciò non modifica le caratteristiche del campione. I campioni (dati) ottenuti sono realizzazioni da una variabile. Il calcolo della varianza del campione è simile alla comprensione della quantità di dispersione nella variabile. Ad esempio, se campionate 20 persone e ne calcolate l'altezza, queste sono 20 "realizzazioni" dalla variabile casuale altezza delle persone. Ora la varianza del campione dovrebbe misurare la variabilità dell'altezza degli individui in generale. Se ordini i dati
100 , 110 , 123 , 124 , ... ,X=
100,110,123,124,…,
che non modifica le informazioni nel campione.
Vediamo un altro esempio. supponiamo di avere 100 osservazioni da una variabile casuale ordinata in questo modo Quindi la distanza media successiva è 1 unità, quindi con il tuo metodo la varianza sarà 1.
1,2,3,4,5,6,7,8,9,10,11,12,13,14,...100.
Il modo di interpretare "varianza" o "dispersione" è comprendere quale intervallo di valori è probabile per i dati. In questo caso otterrai un intervallo di 0,99 unità, che ovviamente non rappresenta bene la variazione.
Se invece di prendere la media sommi semplicemente le differenze successive, la tua varianza sarà 99. Naturalmente ciò non rappresenta la variabilità nel campione, perché 99 ti dà la gamma dei dati, non un senso di variabilità.