Può significare più una deviazione standard superare il valore massimo?


19

Ho media 74,10 e deviazione standard 33,44 per un campione che ha minimo 0 e massimo 94,33.

Il mio professore mi chiede come può significare più una deviazione standard supera il massimo.

Le ho mostrato molti esempi a riguardo, ma lei non capisce. Ho bisogno di qualche riferimento per mostrarle. Potrebbe trattarsi di qualsiasi capitolo o paragrafo di un libro di statistiche che ne parli in particolare.


Perché vuoi aggiungere (o sottrarre) una deviazione standard dalla media? La SD è una misura della diffusione dei dati. Volevi forse l'errore standard della media?
Ripristina Monica - G. Simpson,

Non voglio aggiungere o sottrarre, quello che vuole questo è il mio professore. Questo è il modo in cui comprende la deviazione standard
Boyun Omuru,

5
Un esempio interessante è il campione (0.01,0.02,0,98,0,99). Sia la media più la deviazione standard e la media meno la deviazione standard si trovano all'esterno di [0,1].
Glen_b

Forse sta solo pensando a una distribuzione normale?
user765195,

Risposte:


28

Certamente la media più un sd può superare l'osservazione più grande.

Considera il campione 1, 5, 5, 5 -

ha media 4 e deviazione standard 2, quindi la media + sd è 6, una in più rispetto al massimo del campione. Ecco il calcolo in R:

> x=c(1,5,5,5)
> mean(x)+sd(x)
[1] 6

È un evento comune. Tende a succedere quando c'è un sacco di valori alti e una coda a sinistra (cioè quando c'è una forte asimmetria a sinistra e un picco vicino al massimo).

-

La stessa possibilità si applica alle distribuzioni di probabilità, non solo ai campioni: la media della popolazione più la popolazione sd può facilmente superare il valore massimo possibile.

Ecco un esempio di densità, che ha un valore massimo possibile di 1:beta(10,12)

inserisci qui la descrizione dell'immagine

In questo caso, possiamo guardare la pagina di Wikipedia per la distribuzione beta, che afferma che la media è:

E[X]=αα+β

e la varianza è:

var[X]=αβ(α+β)2(α+β+1)

(Anche se non dobbiamo fare affidamento su Wikipedia, poiché sono abbastanza facili da derivare.)

Quindi per e β = 1α=10 abbiamo media0,9523e sd0,0628, quindi media + sd1,0152, più del possibile massimo di 1.β=120,95230,06281,0152

Cioè, è facilmente possibile avere un valore di media + sd che non può essere osservato come valore di dati .

-

Per ogni situazione in cui la modalità era al massimo, l' asimmetria della modalità Pearson deve essere solo per media + sd per superare il massimo. Può assumere qualsiasi valore, positivo o negativo, quindi possiamo vedere che è facilmente possibile.<-1

-

Un problema strettamente correlato è spesso visto con intervalli di confidenza per una proporzione binomiale , in cui un intervallo comunemente usato, l' intervallo di approssimazione normale può produrre limiti al di fuori di .[0,1]

Ad esempio, si consideri un intervallo di approssimazione normale del 95,4% per la proporzione della popolazione di successi negli studi di Bernoulli (i risultati sono 1 o 0 che rappresentano rispettivamente gli eventi di successo e fallimento), dove 3 osservazioni su 4 sono " " e un'osservazione è " 0 ".10

Allora il limite superiore per l'intervallo è p + 2 × p^+2×14p^(1-p^)=p^+p^(1-p^)=0.75+0,433=1.183

Questa è solo la media del campione + la solita stima dell'sd per il binomio ... e produce un valore impossibile.

Il solito sd campione per 0,1,1,1 0,5 anziché 0,433 (differiscono perché la stima binomiale ML della deviazione standard p ( 1 - p ) corrisponde al dividendo la varianza da n anziché n - 1 ) . Ma non fa differenza: in entrambi i casi, media + sd supera la proporzione massima possibile.p^(1-p^)nn-1

Questo fatto - che un normale intervallo di approssimazione per il binomio può produrre "valori impossibili" è spesso notato in libri e documenti. Tuttavia, non hai a che fare con dati binomiali. Tuttavia il problema - che significa + un certo numero di deviazioni standard non è un valore possibile - è analogo.

-

Nel tuo caso, l'insolito valore "0" nel tuo campione sta aumentando lo sd più grande di quello che abbassa la media, motivo per cui la media + sd è alta.

inserisci qui la descrizione dell'immagine

-

(La domanda sarebbe invece - con quale ragionamento sarebbe impossibile? - perché senza sapere perché qualcuno potrebbe pensare che ci sia un problema, a cosa ci rivolgiamo?)

Logicamente, ovviamente, si dimostra che è possibile dare un esempio di ciò che accade. L'hai già fatto. In assenza di una ragione dichiarata per cui dovrebbe essere altrimenti, cosa devi fare?

Se un esempio non fosse sufficiente, quale prova sarebbe accettabile?

Non ha davvero senso semplicemente indicare un'affermazione in un libro, dal momento che qualsiasi libro può fare un'affermazione per errore - li vedo sempre. Bisogna fare affidamento sulla dimostrazione diretta che è possibile, o una prova in algebra (uno potrebbe essere costruito dall'esempio beta sopra per esempio *) o mediante esempio numerico (che hai già dato), che chiunque può esaminare la verità per se stesso .

* whuber fornisce le condizioni precise per il caso beta nei commenti.


5
0<β<1α>β(1+β)/(1-β)(α,β)1

Lasciami spiegare ulteriormente. Sto cercando la percentuale di precisione di un particolare apparecchio utilizzato per la correzione dei denti. E questo apparecchio ha eseguito una percentuale di precisione per 7 denti come segue:% 76,19,% 77,41,% 94,33,% 91,06,% 0,% 87,77,% 91,96. Il mio professore aggiunge una deviazione standard alla media e afferma che il risultato non può superare il valore massimo nemmeno% 100 perché% 100 è la percentuale di precisione massima che appliancek può eseguire.
Boyun Omuru,

2
Ha ragione che una percentuale> 100% non ha senso nella tua situazione. Il problema è in realtà la premessa non dichiarata che aggiungere un sd alla media dovrebbe avere senso in questo contesto, quando non lo è . Ecco dove credo che abbia origine la tua difficoltà. Se capissimo da dove viene la premessa, potrebbe portare a una migliore risoluzione. È possibile che il semplice fatto sia affermato in un libro da qualche parte (è un'osservazione banale, però, quindi è possibile che non lo sia,), ma dubito che sarà mai messo in un modo che la soddisferà, perché il suo falso la premessa è la fonte del problema.
Glen_b

1
In effetti, il mio punto minore è che questa curiosità è il risultato di ciò che le deviazioni standard rappresentano per le distribuzioni fortemente non simmetriche piuttosto che il risultato del prelievo di un campione. Ma in generale, penso che la tua risposta sia eccellente
Henry,

2
@tomka Ho tentato di aiutare molti studenti in una posizione simile. Alla fine ho imparato la regola empirica (forse non sorprendente) che è effettivamente impossibile insegnare a un supervisore qualsiasi cosa attraverso il mezzo del suo studente.
Glen_b -Restate Monica

4

Secondo la disuguaglianza di Chebyshev, meno di k -2 punti può essere più di k deviazioni standard di distanza. Pertanto, per k = 1 ciò significa che meno del 100% dei campioni può essere distante più di una deviazione standard.

È più interessante osservare il limite inferiore. Il tuo professore dovrebbe essere più sorpreso che ci siano punti che sono circa 2,5 deviazioni standard sotto la media. Ma ora sappiamo che solo circa 1/6 dei tuoi campioni può essere 0.


3

σσ


5
Questo è un bel contributo. Tuttavia, non sono sicuro che la SD "ipotizzi" davvero una distribuzione normale.
gung - Ripristina Monica

3
"Adattamento della distribuzione" e ricerca di una trasformazione in normalità sono procedure distinte con scopi diversi.
whuber

2

X10<p<101-p

E(X)=p,SE(X)=p(1-p)

E vogliamo

E(X)+SE(X)>1p+p(1-p)>1

p(1-p)>(1-p)

Quadrare entrambi i lati per ottenere

p(1-p)>(1-p)2p>1-pp>12

p>1/2E(X)+SE(X)>maxX

p=0.71

U(un',B)E(U)+SE(U)<maxU=B

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.