Perché la varianza non è definita come la differenza tra ogni valore che si susseguono?


19

Questa potrebbe essere una semplice domanda per molti, ma eccola qui:

Perché la varianza non è definita come la differenza tra ogni valore che si susseguono invece della differenza rispetto alla media dei valori?

Questa sarebbe la scelta più logica per me, immagino che ovviamente sto supervisionando alcuni svantaggi. Grazie

MODIFICARE:

Vorrei riformulare il più chiaramente possibile. Questo è ciò che intendo:

  1. Supponiamo di avere un intervallo di numeri, ordinati: 1,2,3,4,5
  2. Calcola e riassumi le (assolute) differenze (in modo continuo, tra ogni valore successivo, non a coppie) tra valori (senza utilizzare la media).
  3. Dividi per numero di differenze
  4. (Follow-up: la risposta sarebbe diversa se i numeri non fossero ordinati)

-> Quali sono gli svantaggi di questo approccio rispetto alla formula standard per la varianza?


1
Potresti anche essere interessato a leggere sull'autocorrelazione (es. Stats.stackexchange.com/questions/185521/… ).
Tim

2
@utente2305193 la risposta di whuber è corretta, ma la sua formula utilizza la distanza quadrata tra un ordinamento dei dati e la media su tutti gli ordinamenti. Un trucco accurato, tuttavia il processo di ricerca della varianza che hai indicato, è esattamente quello che ho cercato di implementare nella mia risposta, e dimostrato che non farebbe un buon lavoro. Cercando di cancellare la confusione.
Greenparker,

1
Per divertimento, cerca l'Allan Variance.
Hobbs,

su un altro pensiero, suppongo che dal momento che non si quadrano le differenze (e non si prende successivamente la radice quadrata) ma si prendono i valori assoluti, questo dovrebbe essere piuttosto 'perché non è così che calcoliamo la deviazione standard' invece di "perché non è così che calcoliamo la varianza". Ma ora mi concedo un periodo di riposo
user2305193,

Risposte:


27

Il motivo più ovvio è che spesso non esiste una sequenza temporale nei valori. Quindi, se si confondono i dati, non fa alcuna differenza nelle informazioni trasmesse dai dati. Se seguiamo il tuo metodo, ogni volta che mescoli i dati ottieni una varianza del campione diversa.

La risposta più teorica è che la varianza del campione stima la vera varianza di una variabile casuale. La vera varianza di una variabile casuale è E [ ( X - E X ) 2 ] .X

E[(XEX)2].

Qui rappresenta l'aspettativa o "valore medio". Quindi la definizione della varianza è la distanza media quadrata tra la variabile dal suo valore medio. Quando guardi questa definizione, qui non c'è un "ordine temporale" poiché non ci sono dati. È solo un attributo della variabile casuale.E

Quando raccogli dati iid da questa distribuzione, hai realizzazioni . Il modo migliore per stimare l'aspettativa è di prendere le medie del campione. La chiave qui è che abbiamo ottenuto i dati e quindi non è possibile ordinare i dati. Il campione x 1 , x 2 , , x n è uguale al campione x 2 , x 5 , x 1 , x n . .x1,x2,,xnx1,x2,,xnx2,x5,x1,xn..

MODIFICARE

La varianza del campione misura un tipo specifico di dispersione per il campione, quello che misura la distanza media dalla media. Esistono altri tipi di dispersione come l'intervallo di dati e l'intervallo interquantile.

Anche se si ordinano i valori in ordine crescente, ciò non modifica le caratteristiche del campione. I campioni (dati) ottenuti sono realizzazioni da una variabile. Il calcolo della varianza del campione è simile alla comprensione della quantità di dispersione nella variabile. Ad esempio, se campionate 20 persone e ne calcolate l'altezza, queste sono 20 "realizzazioni" dalla variabile casuale altezza delle persone. Ora la varianza del campione dovrebbe misurare la variabilità dell'altezza degli individui in generale. Se ordini i dati 100 , 110 , 123 , 124 , ... ,X=

100,110,123,124,,

che non modifica le informazioni nel campione.

Vediamo un altro esempio. supponiamo di avere 100 osservazioni da una variabile casuale ordinata in questo modo Quindi la distanza media successiva è 1 unità, quindi con il tuo metodo la varianza sarà 1.

1,2,3,4,5,6,7,8,9,10,11,12,13,14,...100.

Il modo di interpretare "varianza" o "dispersione" è comprendere quale intervallo di valori è probabile per i dati. In questo caso otterrai un intervallo di 0,99 unità, che ovviamente non rappresenta bene la variazione.

Se invece di prendere la media sommi semplicemente le differenze successive, la tua varianza sarà 99. Naturalmente ciò non rappresenta la variabilità nel campione, perché 99 ti dà la gamma dei dati, non un senso di variabilità.


1
Con l'ultimo paragrafo che mi hai contattato, ahah, grazie per questa risposta sbalorditiva, vorrei avere abbastanza rappresentante per votarlo, per favore gente, fallo per me ;-) ACCETTATO !!!
user2305193,

Follow-up-to-follow-up: Quello che intendevo veramente (sì, scusa, ho capito la domanda giusta solo dopo aver letto la tua risposta) è stato riassumere le differenze e dividerlo per il numero di campioni. Nel tuo ultimo esempio sarebbe 99/100 - puoi approfondire questo per una completa sbalordimento?
user2305193,

@ user2305193 Bene, ho detto 1 unità in media, il che non è corretto. Avrebbero dovuto essere 0,99 unità. Modificato
Greenparker,

Per maggiori informazioni sulla serie 1-100: la varianza in 1-100 sarebbe 841,7 e la deviazione standard 29,01 sorgente . Quindi un risultato piuttosto diverso.
user2305193,

31

Si è definito in questo modo!

Ecco l'algebra. Lascia che i valori siano . Indichiamo con F la funzione di ripartizione empirica di questi valori (che significa che ogni x i articoli una massa di probabilità di 1 / n al valore x i ) e lasciate X e Y siano variabili casuali indipendenti con distribuzione F . In virtù delle proprietà di base della varianza (vale a dire, è una forma quadratica) nonché la definizione di F e il fattoX=(X1,X2,...,Xn)FXio1/nXioXYFF e Y hanno la stessa media,XY

Var(x)=Var(X)=12(Var(X)+Var(Y))=12(Var(XY))=12(E((XY)2)E(XY)2)=E(12(X-Y)2)-0=1n2Σio,j12(Xio-Xj)2.

Questa formula non dipende dal modo in cui è ordinata: utilizza tutte le possibili coppie di componenti, confrontandole usando metà delle loro differenze al quadrato. Tuttavia, può essere correlato a una media su tutti i possibili ordinamenti (il gruppo S ( n ) di tutte le n ! Permutazioni degli indici 1 , 2 , , n ). Vale a dire,XS(n)n!1,2,...,n

Var(x)=1n2i,j12(xixj)2=1n!σS(n)1ni=1n112(xσ(i)xσ(i+1))2.

Quella somma interna prende i valori riordinati e somma le (metà) differenze al quadrato tra tutte le n - 1 coppie successive. La divisione per n essenzialmente fa una media di queste differenze quadrate successive . Calcola la cosiddetta semivarianza lag-1 . La somma esterna fa questo per tutti i possibili ordini .xσ(1),xσ(2),,xσ(n)n1n


Queste due viste algebriche equivalenti della formula della varianza standard offrono nuove informazioni sul significato della varianza. La semivarianza è una misura inversa della covarianza seriale di una sequenza: la covarianza è alta (e i numeri sono positivamente correlati) quando la semivarianza è bassa e viceversa. La varianza di un set di dati non ordinato , quindi, è una sorta di media di tutte le possibili semivarianze ottenibili con riordini arbitrari.


1
@ Mur1lo Al contrario: credo che questa derivazione sia corretta. Applica la formula ad alcuni dati e guarda!
whuber

1
Penso che Mur1lo non abbia parlato della correttezza della formula per la varianza, ma dell'apparente passaggio diretto dalle aspettative di variabili casuali a funzioni di quantità del campione.
Glen_b

1
@glen Ma questo è esattamente ciò che la funzione di distribuzione empirica ci consente di fare. Questo è il punto centrale di questo approccio.
whuber

3
Sì, è chiaro per me; Stavo cercando di sottolineare dove sembrava sorgere la confusione. Mi dispiace essere vago. Spero sia più chiaro ora perché sembra solo * essere un problema.* (questo il motivo per cui ho usato la parola "apparente" in precedenza, per sottolineare che era solo l'apparenza fuori contesto di tale passo che rischiava di essere la causa della confusione)
Glen_b -Reinstate Monica

2
@ Mur1o L'unica cosa che ho fatto in una di queste equazioni è applicare le definizioni. Non si passa dalle aspettative alle "quantità campionarie". (In particolare, nessun campione di è stato posto o utilizzato.) Quindi non sono in grado di identificare quale sia il problema apparente, né suggerire una spiegazione alternativa. Se potessi ampliare le tue preoccupazioni, allora potrei essere in grado di rispondere. F
whuber

11

Solo un complemento alle altre risposte, la varianza può essere calcolata come la differenza quadrata tra i termini:

Var(X)=12n2injn(xixj)2=12n2injn(xix¯xj+x¯)2=12n2injn((xix¯)(xjx¯))2=1nin(xix¯)2

Penso che questo sia il più vicino alla proposta del PO. Ricorda che la varianza è una misura della dispersione di ogni osservazione contemporaneamente, non solo tra numeri "vicini" nell'insieme.


AGGIORNARE

Usando il tuo esempio: . Sappiamo che la varianza è V a r ( X ) = 2 .X=1,2,3,4,5Var(X)=2

Con il metodo proposto , quindi sappiamo in anticipo di prendere le differenze tra i vicini poiché la varianza non si somma. Ciò che intendevo era prendere ogni possibile differenza al quadrato quindi riassunta:Var(X)=1

Var(X)==(51)2+(52)2+(53)2+(54)2+(55)2+(41)2+(42)2+(43)2+(44)2+(45)2+(31)2+(32)2+(33)2+(34)2+(35)2+(21)2+(22)2+(23)2+(24)2+(25)2+(11)2+(12)2+(13)2+(14)2+(15)2252==16+9+4+1+9+4+1+1+4+1+1+4+1+1+4+9+1+4+9+1650==2

Ora sono seriamente confuso, ragazzi
user2305193,

@ user2305193 Nella tua domanda, intendevi ogni differenza a coppie o intendevi la differenza tra un valore e il successivo in una sequenza? Potresti chiarire, per favore?
Firebug,

2
@ Mur1lo nessuno lo è, non ho idea di cosa ti riferisca.
Firebug,

2
@ Mur1lo Questa è una domanda generale, e ho risposto generalmente. La varianza è un parametro calcolabile, che può essere stimato dai campioni. Questa domanda non riguarda la stima però. Inoltre stiamo parlando di insiemi discreti, non di distribuzioni continue.
Firebug,

1
Hai mostrato come stimare la varianza in base alla sua statistica U e alla sua multa. Il problema è quando scrivi: Var ("maiuscolo" X) = cose che coinvolgono "lettere minuscole" x, stai mescolando le due diverse nozioni di parametro e di stimatore.
Mur1lo,

6

Altri hanno risposto sull'utilità della varianza definita come al solito. Ad ogni modo, abbiamo solo due definizioni legittime di cose diverse: la solita definizione di varianza e la tua definizione.

Quindi, la domanda principale è perché il primo si chiama varianza e non la tua. Questa è solo una questione di convenzioni. Fino al 1918 avresti potuto inventare tutto quello che volevi e chiamarlo "varianza", ma nel 1918 Fisher usò quel nome per quella che è ancora chiamata varianza, e se vuoi definire qualcos'altro dovrai trovare un altro nome per nominarlo.

L'altra domanda è se la cosa che hai definito potrebbe essere utile per qualsiasi cosa. Altri hanno indicato che i suoi problemi devono essere utilizzati come misura di dispersione, ma sta a te trovarne le applicazioni. Forse trovi applicazioni così utili che in un secolo la tua cosa è più famosa della varianza.


So che ogni definizione spetta alle persone che la decidono, stavo davvero cercando aiuto negli aspetti positivi e negativi di ogni approccio. Di solito c'è una buona ragione per cui le persone convergono in una definizione e come sospettavo non ho capito perché.
user2305193

1
Fisher introdusse la varianza come termine nel 1918, ma l'idea è più antica.
Nick Cox,

Per quanto ne so, Fisher è stato il primo ad usare il nome "varianza" per varianza. Ecco perché dico che prima del 1918 avresti potuto usare la "varianza" per nominare qualsiasi altra cosa tu avessi inventato.
Pere,

3

La risposta di @GreenParker è più completa, ma un esempio intuitivo potrebbe essere utile per illustrare lo svantaggio del tuo approccio.

Nella tua domanda, sembri presumere che l'ordine in cui compaiono le realizzazioni di una variabile casuale sia importante. Tuttavia, è facile pensare ad esempi in cui non è così.

Considera l'esempio dell'altezza degli individui in una popolazione. L'ordine in cui gli individui vengono misurati è irrilevante sia per l'altezza media nella popolazione che per la varianza (come distribuire tali valori attorno alla media).

Il tuo metodo sembrerebbe strano applicato a un caso del genere.


2

Sebbene ci siano molte buone risposte a questa domanda, credo che alcuni punti importanti siano stati lasciati indietro e poiché questa domanda è emersa da un punto davvero interessante, vorrei fornire un altro punto di vista.

Why isn't variance defined as the difference between every value following    
each other instead of the difference to the average of the values?

La prima cosa da tenere a mente è che la varianza è un tipo particolare di parametro e non un certo tipo di calcolo. Esiste una rigorosa definizione matematica di cosa sia un parametro, ma per il momento possiamo pensare quindi a operazioni matematiche sulla distribuzione di una variabile casuale. Ad esempio seX è una variabile casuale con funzione di distribuzione FX quindi la sua media μX, che è anche un parametro, è:

μX=+xdFX(x)

and the variance of X, σX2, is:

σX2=+(xμX)2dFX(x)

The role of estimation in statistics is to provide, from a set of realizations of a r.v., a good approximation for the parameters of interest.

What I wanted to show is that there is a big difference in the concepts of a parameters (the variance for this particular question) and the statistic we use to estimate it.

Why isn't the variance calculated this way?

So we want to estimate the variance of a random variable X from a set of independent realizations of it, lets say x={x1,,xn}. The way you propose doing it is by computing the absolute value of successive differences, summing and taking the mean:

ψ(x)=1ni=2n|xixi1|

and the usual statistic is:

S2(x)=1n1i=in(xix¯)2,

where x¯ is the sample mean.

When comparing two estimator of a parameter the usual criterion for the best one is that which has minimal mean square error (MSE), and a important property of MSE is that it can be decomposed in two components:

MSE = estimator bias + estimator variance.

Using this criterion the usual statistic, S2, has some advantages over the one you suggests.

  • First it is a unbiased estimator of the variance but your statistic is not unbiased.

  • One other important thing is that if we are working with the normal distribution then S2 is the best unbiased estimator of σ2 in the sense that it has the smallest variance among all unbiased estimators and thus minimizes the MSE.

When normality is assumed, as is the case in many applications, S2 is the natural choice when you want to estimate the variance.


3
Everything in this answer is well explained, correct, and interesting. However, introducing the "usual statistic" as an estimator confuses the issue, because the question is not about estimation, nor about bias, nor about the distinction between 1/n and 1/(n1). That confusion might be at the root of your comments to several other answers in this thread.
whuber


1

Lots of good answers here, but I'll add a few.

  1. The way it is defined now has proven useful. For example, normal distributions appear all the time in data and a normal distribution is defined by its mean and variance. Edit: as @whuber pointed out in a comment, there are various other ways specify a normal distribution. But none of them, as far as I'm aware, deal with pairs of points in sequence.
  2. Variance as normally defined gives you a measure of how spread out the data is. For example, lets say you have a lot of data points with a mean of zero but when you look at it, you see that the data is mostly either around -1 or around 1. Your variance would be about 1. However, under your measure, you would get a total of zero. Which one is more useful? Well, it depends, but its not clear to me that a measure of zero for its "variance" would make sense.
  3. Ti permette di fare altre cose. Solo un esempio, nella mia classe di statistiche abbiamo visto un video sul confronto tra i lanciatori (nel baseball) nel tempo. A quanto ricordo, i lanciatori sembravano peggiorare dal momento che la proporzione di tiri colpiti (o erano home run) stava salendo. Uno dei motivi è che i battitori stavano migliorando. Ciò ha reso difficile il confronto tra i lanciatori nel tempo. Tuttavia, potrebbero usare il punteggio z dei lanciatori per confrontarli nel tempo.

Tuttavia, come diceva @Pere, la tua metrica potrebbe rivelarsi molto utile in futuro.


1
Una distribuzione normale può anche essere determinata dalla sua media e dal quarto momento centrale, per quella materia - o per mezzo di molte altre coppie di momenti. La varianza non è speciale in questo modo.
whuber

@whuber interessante. Devo ammettere che non me ne sono reso conto. Tuttavia, a meno che non mi sbagli, tutti i momenti sono "simili alla varianza" in quanto si basano su distanze da un certo punto invece di occuparsi di coppie di punti in sequenza. Ma modificherò le mie risposte per prendere nota di quello che hai detto.
Roundsquare,

1
Potresti spiegare il senso in cui intendi "affrontare coppie di punti in sequenza"? Non fa parte di alcuna definizione standard di un momento. Si noti inoltre che tutti i momenti assoluti intorno alla media - che include tutti i momenti pari intorno alla media - forniscono una "misura di come i dati siano distribuiti". Si potrebbe quindi costruire con loro un analogo del punteggio Z. Pertanto, nessuno dei tre punti sembra differenziare la varianza da qualsiasi momento centrale assoluto.
whuber

@whuber yeah. La domanda originale prevedeva una sequenza di 4 passaggi in cui ordinare i punti, prendere le differenze tra ciascun punto e il punto successivo, quindi fare una media di questi. Questo è ciò che ho definito "trattare [ing] con coppie di punti in sequenza". Quindi hai ragione, nessuno dei tre punti che ho dato distingue la varianza da qualsiasi momento centrale assoluto - hanno lo scopo di distinguere la varianza (e, suppongo, tutti i momenti centrali assoluti) dalla procedura descritta nella domanda originale.
Roundsquare,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.