Valore che aumenta la deviazione standard


12

Sono perplesso dalla seguente affermazione:

"Per aumentare la deviazione standard di un insieme di numeri, è necessario aggiungere un valore che è più di una deviazione standard dalla media"

Qual è la prova di ciò? So ovviamente come definiamo la deviazione standard ma quella parte mi sembra che manchi in qualche modo. Qualche commento?


1
Hai provato a capire l'algebra coinvolta?
Alecos Papadopoulos,

Sì. Ho sottratto la varianza del campione di n valori dalla varianza di n + 1 valori e ho richiesto che la differenza sia maggiore di zero. Eppure non riesco a capirlo.
JohnK,

3
Uno dei modi più semplici è quello di differenziare l'algoritmo di Welford rispetto al nuovo valore e quindi integrarlo per mostrare che se l'introduzione di aumenta la varianza, allora dove è la media dei primi valori e è la loro stima della varianza. x n ( x n - ˉ x n - 1 ) 2nxnxn ˉ x n-1n-1vn-1(xnx¯n1)2nn1vn1x¯n1n1vn1
whuber

Va bene, ma può forse essere mostrato con una semplice algebra? La mia conoscenza delle statistiche non è così avanzata.
JohnK,

@JohnK, puoi per favore condividere la fonte del preventivo?
Pe Dro

Risposte:


20

Per qualsiasi numero con mean , la varianza è data da Applicando al dato set di numeri che consideriamo per comodità in esposizione avere media , abbiamo quello y 1 , y 2 , , y N ˉ y = 1Ny1,y2,,yN σ 2y¯=1Ni=1Nyi(1)nx1,x2,xnˉx=0σ2=1

σ2=1N1i=1N(yiy¯)2=1N1i=1N(yi22yiy¯+y¯2)=1N1[(i=1Nyi2)2N(y¯)2+N(y¯)2](1)σ2=1N1i=1N(yi2(y¯)2)
(1)nx1,x2,xnx¯=0 xn+11
σ2=1n1i=1n(xi2(x¯)2)=1n1i=1nxi2
Se ora aggiungiamo una nuova osservazione a questo set di dati, la nuova media del set di dati è mentre la nuova varianza è Quindideve essere più grande dixn+1σ 2
1n+1i=1n+1xi=nx¯+xn+1n+1=xn+1n+1
| xn+1| σ
σ^2=1ni=1n+1(xi2xn+12(n+1)2)=1n[((n1)σ2+xn+12)xn+12n+1]=1n[(n1)σ2+nn+1xn+12]>σ2 only if xn+12>n+1nσ2.
|xn+1| xn+1ˉxσσ1+1n o, più in generale, deve differire dalla media del set di dati originale di più di , affinché il set di dati aumentati abbia una varianza maggiore rispetto al set di dati originale. Vedi anche la risposta di Ray Koopman che sottolinea che la nuova varianza è maggiore, uguale o minore di, la varianza originale secondo differisce dalla media di più di, esattamente o meno di .xn+1x¯ xn+1σσ1+1nxn+1σ1+1n

5
+1 Finalmente qualcuno ha capito bene ... ;-) L'affermazione da dimostrare è corretta; non è stretto. Per inciso, puoi anche scegliere le tue unità di misura per fare , il che semplifica ulteriormente il calcolo, riducendolo a circa due righe. σ2=1
whuber

Ti suggerisco di usare S invece di sigma nella prima serie di equazioni e grazie per la derivazione. È stato bello saperlo :)
Theoden,

3

La dichiarazione sconcertante fornisce una condizione necessaria ma insufficiente per aumentare la deviazione standard. Se la vecchia dimensione del campione è , la vecchia media è , la vecchia deviazione standard è e un nuovo punto viene aggiunto ai dati, quindi la nuova deviazione standard sarà inferiore, uguale o maggiore di secondo comeè minore di, uguale a o maggiore di .m s x s | x - m | s nmsxs|xm|s1+1/n


1
Hai una prova a portata di mano?
JohnK,

2

Lasciando da parte l'algebra (che funziona anche) pensaci in questo modo: la deviazione standard è la radice quadrata della varianza. La varianza è la media delle distanze al quadrato dalla media. Se aggiungiamo un valore più vicino alla media di questo, la varianza diminuirà. Se aggiungiamo un valore più lontano dalla media di questo, crescerà.

Questo vale per qualsiasi media di valori non negativi. Se si aggiunge un valore superiore alla media, la media aumenta. Se aggiungi un valore inferiore, diminuisce.


Mi piacerebbe vedere anche una prova rigorosa. Mentre capisco il principio, sono perplesso dal fatto che il valore deve essere almeno 1 deviazione dalla media. Perché precisamente 1?
JohnK,

Non vedo cosa sia confuso. La varianza è la media. Se aggiungi qualcosa di più grande della media (cioè più di 1 sd) aumenta. Ma non sono uno per le prove formali
Peter Flom - Ripristina Monica

Potrebbe essere maggiore della media di 0,2 deviazioni standard. Perché non dovrebbe aumentare allora?
JohnK,

No, non maggiore della media dei dati, maggiore della varianza, che è la media delle distanze al quadrato.
Peter Flom - Ripristina Monica

4
È confuso perché l'inclusione di un nuovo valore cambia la media, quindi cambiano tutti i residui. È ipotizzabile che anche quando il nuovo valore è lontano dalla vecchia media, il suo contributo alla DS potrebbe essere compensato riducendo la somma dei quadrati dei residui degli altri valori. Questo è uno dei tanti motivi per cui sono utili prove rigorose: forniscono non solo sicurezza nella propria conoscenza, ma intuizione (e persino nuove informazioni). Ad esempio, la dimostrazione mostrerà che è necessario aggiungere un nuovo valore che sia strettamente superiore a una SD dalla media per aumentare la SD.
whuber

2

Ti inizierò sull'algebra, ma non la prenderò del tutto. Innanzitutto, standardizza i dati sottraendo la media e dividendo per la deviazione standard:Si noti che se trova all'interno di una deviazione standard della media, è compreso tra -1 e 1. Z sarebbe 1 se fosse esattamente a una distanza dalla media. Quindi guarda la tua equazione per la deviazione standard: Cosa succede a se è compreso tra -1 e 1?xZxσ=

Z=xμσ.
xZx σZN
σ=i=1NZi2N1
σZN

Un numero il cui valore assoluto è inferiore a 1, quando al quadrato sarà anche inferiore a 1 in abs. valore. Ciò che non capisco è che anche se Z_N rientri in quella categoria, stiamo aggiungendo un valore positivo a σ, quindi non dovrebbe aumentare?
JohnK,

Sì, stai aggiungendo un valore positivo, ma sarà inferiore alla tua deviazione media dalla media e quindi riduci il sigma. Forse avrebbe più senso considerare il valore come . ZN+1
wcampbell,

1
1) Non dimenticare che quando aggiungi quel valore, aumenti anche di 1. 2) Non aggiungi quel valore a , lo aggiungi a . σ Z 2 iNσZi2
jbowman,

Esattamente quello che stavo cercando di esprimere!
wcampbell,

Non è così semplice: in questa risposta hai calcolato la SD come se il nuovo valore fosse già parte del set di dati. Invece, deve essere standardizzato rispetto alla SD e alla media dei primi valori , non tutti. N - 1ZiN1
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.