Certamente la media più un sd può superare l'osservazione più grande.
Considera il campione 1, 5, 5, 5 -
ha media 4 e deviazione standard 2, quindi la media + sd è 6, una in più rispetto al massimo del campione. Ecco il calcolo in R:
> x=c(1,5,5,5)
> mean(x)+sd(x)
[1] 6
È un evento comune. Tende a succedere quando c'è un sacco di valori alti e una coda a sinistra (cioè quando c'è una forte asimmetria a sinistra e un picco vicino al massimo).
-
La stessa possibilità si applica alle distribuzioni di probabilità, non solo ai campioni: la media della popolazione più la popolazione sd può facilmente superare il valore massimo possibile.
Ecco un esempio di densità, che ha un valore massimo possibile di 1:beta ( 10 , 12)
In questo caso, possiamo guardare la pagina di Wikipedia per la distribuzione beta, che afferma che la media è:
E[ X] = αα + β
e la varianza è:
var[ X] = α β( α + β)2( α + β+ 1 )
(Anche se non dobbiamo fare affidamento su Wikipedia, poiché sono abbastanza facili da derivare.)
Quindi per e β = 1α = 10 abbiamo media≈0,9523e sd≈0,0628, quindi media + sd≈1,0152, più del possibile massimo di 1.β= 12≈ 0.9523≈ 0,0628≈ 1.0152
Cioè, è facilmente possibile avere un valore di media + sd che non può essere osservato come valore di dati .
-
Per ogni situazione in cui la modalità era al massimo, l' asimmetria della modalità Pearson deve essere solo per media + sd per superare il massimo. Può assumere qualsiasi valore, positivo o negativo, quindi possiamo vedere che è facilmente possibile.<- 1
-
Un problema strettamente correlato è spesso visto con intervalli di confidenza per una proporzione binomiale , in cui un intervallo comunemente usato, l' intervallo di approssimazione normale può produrre limiti al di fuori di .[ 0 , 1 ]
Ad esempio, si consideri un intervallo di approssimazione normale del 95,4% per la proporzione della popolazione di successi negli studi di Bernoulli (i risultati sono 1 o 0 che rappresentano rispettivamente gli eventi di successo e fallimento), dove 3 osservazioni su 4 sono " " e un'osservazione è " 0 ".10
Allora il limite superiore per l'intervallo è p + 2 × √p^+ 2 × 14p^( 1 - p^)---------√= p^+ p^( 1 - p^)-------√= 0,75 + 0,433 = 1.183
Questa è solo la media del campione + la solita stima dell'sd per il binomio ... e produce un valore impossibile.
Il solito sd campione per 0,1,1,1 0,5 anziché 0,433 (differiscono perché la stima binomiale ML della deviazione standard p ( 1 - p ) corrisponde al dividendo la varianza da n anziché n - 1 ) . Ma non fa differenza: in entrambi i casi, media + sd supera la proporzione massima possibile.p^(1 - p^)nn - 1
Questo fatto - che un normale intervallo di approssimazione per il binomio può produrre "valori impossibili" è spesso notato in libri e documenti. Tuttavia, non hai a che fare con dati binomiali. Tuttavia il problema - che significa + un certo numero di deviazioni standard non è un valore possibile - è analogo.
-
Nel tuo caso, l'insolito valore "0" nel tuo campione sta aumentando lo sd più grande di quello che abbassa la media, motivo per cui la media + sd è alta.
-
(La domanda sarebbe invece - con quale ragionamento sarebbe impossibile? - perché senza sapere perché qualcuno potrebbe pensare che ci sia un problema, a cosa ci rivolgiamo?)
Logicamente, ovviamente, si dimostra che è possibile dare un esempio di ciò che accade. L'hai già fatto. In assenza di una ragione dichiarata per cui dovrebbe essere altrimenti, cosa devi fare?
Se un esempio non fosse sufficiente, quale prova sarebbe accettabile?
Non ha davvero senso semplicemente indicare un'affermazione in un libro, dal momento che qualsiasi libro può fare un'affermazione per errore - li vedo sempre. Bisogna fare affidamento sulla dimostrazione diretta che è possibile, o una prova in algebra (uno potrebbe essere costruito dall'esempio beta sopra per esempio *) o mediante esempio numerico (che hai già dato), che chiunque può esaminare la verità per se stesso .
* whuber fornisce le condizioni precise per il caso beta nei commenti.