Perché prendiamo la radice quadrata della varianza per creare la deviazione standard?


26

Mi dispiace se questo è stato risposto altrove, non sono stato in grado di trovarlo.

Mi chiedo perché prendiamo la radice quadrata , in particolare, della varianza per creare la deviazione standard? Cosa significa prendere la radice quadrata che produce un valore utile?



2
Pensa alla deviazione standard come norma del vettore euclideo e quindi alla varianza come al quadrato. Questa definizione di varianza e deviazione standard risulta avere utili proprietà analitiche.
theideasmith

Risposte:


44

In un certo senso questa è una domanda banale, ma in un altro è in realtà abbastanza profonda!

  • Come altri hanno già detto, la radice quadrata implica ha le stesse unità .Stdev(X)X

  • Prendere la radice quadrata ti dà l' assoluta omogeneità o la scalabilità assoluta . Per ogni scalare e variabile casuale , abbiamo: omogeneità assoluta è una proprietà richiesta di una norma . La deviazione standard può essere interpretata come una norma (nello spazio vettoriale delle variabili aleatorie medie zero) in modo simile che è la norma euclidea standard in un tridimensionale spazio. La deviazione standard è una misura della distanza tra una variabile casuale e la sua media.αX

    Stdev[αX]=|α|Stdev[X]
    x2+y2+z2

Deviazione standard e norma L2

Caso di dimensione finita:

In uno spazio vettoriale n dimensionale, la norma euclidea standard aka la norma L2 è definita come:

x2=ixi2

Più in generale, -norm utilizza la radice per ottenere l'assoluto omogeneità: .p xp=(i|xi|p)1ppαxp=(i|αxi|p)1p=|α|(i|xi|p)1p=|α|xp

Se hai pesi la somma ponderata è anche una norma valida. Inoltre, è la deviazione standard se rappresenta le probabilità eqiixi2qiqiE[x]ixiqi=0

Custodia a dimensione infinita:

In uno spazio di Hilbert di dimensione infinita possiamo allo stesso modo definire la norma :L2

X2=ωX(ω)2dP(ω)

Se è una variabile casuale zero media e è la misura di probabilità, qual è la deviazione standard? È lo stesso: .XPωX(ω)2dP(ω)

Sommario:

Prendere la radice quadrata significa che la deviazione standard soddisfa l'omogeneità assoluta , una proprietà richiesta di una norma .

Su uno spazio di variabili casuali, è un prodotto interno e la norma indotta da quel prodotto interno . Quindi la deviazione standard è la norma di una variabile casuale : È una misura della distanza dalla media ad .X,Y=E[XY]X2=E[X2]

Stdev[X]=XE[X]2
E[X]X

(Punto tecnico: mentre è una norma, la deviazione standard non è una norma sulle variabili casuali in generale perché un requisito per uno spazio vettoriale normato è se e solo se . Una deviazione standard di 0 non fa ' T implica che la variabile casuale è l'elemento zero.)E[X2]E[(XE[X])2]x=0x=0


1
Questa risposta è davvero al centro del problema, rendendolo più informativo di quello attualmente accettato.
00prometheus

26

La varianza di è definita come , quindi è un'aspettativa di una differenza quadrata tra X e il suo valore atteso.XV(X)=E(XE(X))2

Se è il tempo in secondi, è in secondi, ma è in e è di nuovo in secondi.XXE(X)V(X)seconds2V(X)


Ah, capisco, sta solo annullando il cambiamento di scala derivante dalla quadratura delle differenze, nel calcolo della varianza?
Dave,

11
Giusto, ma cambia in dimensioni , non in scala.
Jean-François Corbett,

Ma non è che ci sia un solo termine lì: ce ne sono molti e ognuno quando è al potere 2, porta più o meno di altri termini. Ma quando prendiamo la radice quadrata, trascuriamo questa differenza, no? Non otterremmo il numeratore iniziale, somma di tutte le differenze in questo modo. Non sarebbe meglio prendere una radice quadrata di ogni singolo termine?
parsecer

Sembra che tu stia pensando alla stima , basata su un campione. In tal caso, se lo facessi, le differenze si azzererebbero: . V^i=1n(xix¯)=i=1nxii=1nxi=0
HStamper

@EricMittman Tranne che , non , nel qual caso otterrai l' errore assoluto medio . a2=|a|a
Dougal,

6

La semplice risposta è che le unità sono sulla stessa scala della media. Esempio: stima che la media per lo studente secondario sia di 160 cm con una deviazione standard (DS) di 20 cm. È intuitivamente più facile avere un'idea della variazione con la SD rispetto alla varianza di 400 cm ^ 2.


0

In termini più semplici, la deviazione standard è progettata per darci un numero positivo che dice qualcosa sulla diffusione dei nostri dati sulla sua media.

Se dovessimo solo sommare le distanze di tutti i punti dalla media, i punti nelle direzioni positiva e negativa si combinerebbero in un modo che tenderebbe a gravitare di nuovo verso la media e perderemmo informazioni sulla diffusione. Questo è il motivo per cui misuriamo prima la varianza, in modo che tutte le distanze vengano mantenute come quantità positive tramite la quadratura e non si annullino a vicenda. Alla fine vogliamo un valore positivo che rappresenti le unità con cui abbiamo iniziato - questo è già stato commentato sopra - quindi prendiamo la radice quadrata positiva.


-3

È una stupidità storica che continuiamo a causa della pigrizia intellettuale. Hanno scelto di quadrare le differenze dalla media per sbarazzarsi del segno meno. Quindi hanno preso la radice quadrata in modo da portarla su una scala simile alla media.

Qualcuno dovrebbe generare nuove statistiche, varianza di calcolo e SD usando il modulo o valori assoluti di deviazione dalla media. Ciò si libererebbe di tutta questa quadratura e quindi prendere il business della radice quadrata.


1
Lo abbiamo già, nella forma della media (o mediana) deviazione assoluta, delle norme L1 e simili. Tuttavia, il principale vantaggio dell'approccio tradizionale è che, a differenza dei valori assoluti, è differenziabile, il che consente di minimizzare analiticamente e massimizzare le cose.
Matt Krause,

1
Non riesci a fornire una giustificazione sostanziale della tua posizione, ti preghiamo di fornire un argomento matematico chiaramente definito. La somma dei valori assoluti si ridimensiona in modo molto diverso dalla radice quadrata della somma dei quadrati. Quest'ultimo sottolinea il contributo di valori estremi, che è una proprietà utile. Inoltre, SSQ è fondamentale per i metodi analitici dei minimi quadrati. Si prega di prendere il tempo per espandere i problemi di SD e come confrontare le alternative in modo che i lettori possano capire il tuo punto di vista. .
Rinnova il

(-1) È fin troppo facile leggere frasi come "stupidità storica" ​​e "pigrizia intellettuale" come autoreferenziali.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.