La deviazione standard dei dati non negativi può superare la media?


15

Ho delle maglie 3D triangolate. Le statistiche per le aree triangolari sono:

  • Min 0.000
  • Max 2341.141
  • Media 56.317
  • Std dev 98.720

Quindi, significa qualcosa di particolarmente utile sulla deviazione standard o suggerisce che ci sono dei bug nel calcolo, quando le cifre funzionano come sopra? Le aree sono certamente lungi dall'essere normalmente distribuite.

E come qualcuno ha menzionato in una delle loro risposte di seguito, la cosa che mi ha davvero sorpreso del fatto che ci sia voluta solo una SD dalla media perché i numeri diventassero negativi e quindi fuori dal dominio legale.

Grazie


4
Nel set di dati la deviazione standard del campione è mentre la media è abbastanza vicina a ciò che si osserva. 100 52{2,2,2,202}10052
whuber

5
Per un esempio familiare (per alcuni), il risultato medio di qualcuno che gioca a blackjack per un'ora potrebbe essere negativo $ 25 ma con una deviazione standard di dire $ 100 (numeri per l'illustrazione). Questo grande coefficiente di variazione rende più facile indurre qualcuno a pensare di essere migliore di quello che è realmente.
Michael McGowan,

Anche la domanda di follow-up è piuttosto istruttiva: pone limiti alla DS di un insieme di (dati non negativi), data la media.
whuber

Risposte:


9

Nulla afferma che la deviazione standard debba essere inferiore o superiore alla media. Dato un insieme di dati è possibile mantenere la media uguale ma modificare la deviazione standard in modo arbitrario aggiungendo / sottraendo un numero positivo in modo appropriato .

Utilizzando il set di dati di esempio di @ whuber dal suo commento alla domanda: {2, 2, 2, 202}. Come affermato da @whuber: la media è 52 e la deviazione standard è 100.

Ora, perturbare ciascun elemento dei dati come segue: {22, 22, 22, 142}. La media è ancora 52 ma la deviazione standard è 60.


1
Se si aggiunge a ciascun elemento, si modifica il parametro location , ovvero la media. Modifichi la dispersione (cioè la deviazione standard) moltiplicandola per un fattore di scala (a condizione che la tua media sia zero).
Dirk Eddelbuettel,

@DirkEddelbuettel Hai ragione. Ho risolto la risposta e fornito un esempio per chiarezza.
varty,

2
Non seguo l'esempio. Il nuovo set di dati chiaramente non deriva dall'originale "aggiungendo o sottraendo un numero positivo" da ciascuno dei valori originali.
whuber

3
Non posso modificarlo perché non so cosa stai cercando di dire. Se è possibile aggiungere arbitrariamente valori separati a ciascuno dei numeri in un set di dati, si sta semplicemente cambiando un set di valori in un set completamente diverso di n valori. Non vedo quanto sia rilevante per la domanda o addirittura per il tuo paragrafo di apertura. Penso che chiunque concederebbe che tali cambiamenti possano alterare la media e la DS, ma ciò non ci dice perché la SD di un insieme di dati non negativi possa essere un multiplo positivo della sua media. nn
whuber

2
Hai ragione: l'affermazione citata è mia e non appare nella tua risposta. (Capita di essere corretto e pertinente, però. :-) Un punto che sto cercando di capire è che la semplice capacità di cambiare la SD mantenendo la stessa media non risponde alla domanda. Quanto può essere modificata la SD (mantenendo tutti i dati non negativi)? L'altro punto che ho cercato di sottolineare è che il tuo esempio non illustra un processo generale e prevedibile per apportare tali modifiche ai dati. Questo lo rende arbitrario, il che non è di grande aiuto.
whuber

9

Naturalmente, questi sono parametri indipendenti. Puoi impostare semplici esplorazioni in R (o in un altro strumento che potresti preferire).

R> set.seed(42)     # fix RNG
R> x <- rnorm(1000) # one thousand N(0,1)
R> mean(x)          # and mean is near zero
[1] -0.0258244
R> sd(x)            # sd is near one
[1] 1.00252
R> sd(x * 100)      # scale to std.dev of 100
[1] 100.252
R> 

Allo stesso modo, standardizzi i dati che stai osservando sottraendo la media e dividendo per la deviazione standard.

Modifica E seguendo l'idea di @Buber, ecco una serie infinita di set di dati che si avvicinano alle tue quattro misurazioni:

R> data <- c(0, 2341.141, rep(52, 545))
R> data.frame(min=min(data), max=max(data), sd=sd(data), mean=mean(data))
  min     max      sd    mean
1   0 2341.14 97.9059 56.0898
R> 

Non sono sicuro di aver capito il tuo punto. Non sono esattamente indipendenti in quanto si potrebbe cambiare la media perturbando un punto dati e quindi cambiando anche la deviazione standard. Ho interpretato male qualcosa?
varty,

Notando che le aree triangolari non possono essere negative (come confermato dal valore minimo indicato nella domanda), si spera in un esempio costituito esclusivamente da numeri non negativi.
whuber

(+1) Modifica: prova a utilizzare 536 repliche di 52.15 :-).
whuber

Nice one re 536 ripetizioni. Avrei dovuto fare una ricerca binaria :)
Dirk Eddelbuettel,

@Dirk "questi sono parametri indipendenti", considera il caso in cui è un bernouilli. varianza e media non sono indipendenti: v a r ( X ) = p ( 1 - p ) . Si consideri una variabile casuale 100 > X > 0 , varianza massima possibile è ( 50 ) 2 ora se si forza la media sia uguale a uno (cioè inferiore a quello 50 ) la varianza massima non può essere superiore a 99 / 100 * ( 1 ) 2 + (Xvun'r(X)=p(1-p)100>X>0(50)250 . Ci sono più esempi di variabili limitate in natura che gaussiani? 99/100*(1)2+(1/100)*992
Robin Girard,

7

Non sono sicuro del motivo per cui @Andy è sorpreso da questo risultato, ma so che non è solo. Né sono sicuro di cosa abbia a che fare la normalità dei dati con il fatto che la sd è superiore alla media. È abbastanza semplice generare un set di dati che viene normalmente distribuito in questo caso; infatti, la normale standard ha una media di 0, sd di 1. Sarebbe difficile ottenere un set di dati distribuito normalmente di tutti i valori positivi con sd> mean; infatti, non dovrebbe essere possibile (ma dipende dalle dimensioni del campione e dal test di normalità che usi ... con un campione molto piccolo, accadono cose strane)

Tuttavia, una volta rimossa la clausola della normalità, come ha fatto @Andy, non c'è motivo per cui sd dovrebbe essere più grande o più piccolo della media, anche per tutti i valori positivi. Un singolo anomalo lo farà. per esempio

x <- runif (100, 1, 200) x <- c (x, 2000)

dà media di 113 e sd di 198 (ovviamente in base al seme).

Ma una domanda più grande è perché questo sorprende le persone.

Non insegno statistica, ma mi chiedo cosa ne pensi del modo in cui la statistica rende comune questa nozione.


Non ho mai studiato statistica, solo un paio di unità di ingegneria matematica e questo è stato trenta anni fa. Altre persone al lavoro, che pensavo comprendessero meglio il dominio, hanno parlato di rappresentare dati errati in base al "numero di sviluppatori std lontani dalla media". Quindi, si tratta più di "come lo std dev viene comunemente menzionato" che di "insegnato" :-)
Andy Dent,

@Andy avendo un gran numero di std lontano dalla media significa semplicemente che la variabile non è significativamente diversa da zero. Quindi dipende dal contesto (era il significato della variabile casuale) ma in alcuni casi potresti voler rimuovere quelli?
Robin Girard,

@Peter vedi il mio commento a Dirk, questo potrebbe spiegare la "sorpresa" in alcuni contesti. In realtà ho insegnato statistica per qualche tempo e non ho mai visto la sorpresa di cui stai parlando. Comunque, preferisco gli studiosi che sono sorpresi da tutto ciò che sono abbastanza sicuro che questa sia una buona posizione epistemologica (meglio che svenire nella posizione assolutamente nessuna sorpresa :)).
Robin Girard,

I dati "cattivi" di @AndyDent, per me, significano dati che sono stati registrati in modo errato. I dati che sono lontani dalla media sono valori anomali. Ad esempio, supponi di misurare l'altezza delle persone. Se mi misuri e registri la mia altezza come 7'5 'anziché 5'7, sono dati errati. Se si misura Yao Ming e si registra la sua altezza come 7'5 ", si tratta di dati anomali ma non negativi. Indipendentemente dal fatto che sia molto lontano dalla media (qualcosa come 6 sds)
Peter Flom - Ripristina Monica

@Peter Florn, Nel nostro caso, abbiamo valori anomali di cui vogliamo sbarazzarci perché rappresentano triangoli che causeranno problemi algoritmici durante l'elaborazione della mesh. Potrebbero anche essere "dati errati" nel tuo senso se sono stati creati da dispositivi di scansione difettosi o conversione da altri formati :-) Altre forme possono avere valori anomali che sono legittimamente lontani dalla media ma non rappresentano un problema. Una delle cose più interessanti di questi dati è che abbiamo "dati errati" ad entrambe le estremità, ma quelli piccoli non sono lontani dalla media.
Andy Dent,

6

Basta aggiungere un punto generico che, dal punto di vista del calcolo, e x 2 f ( x ) d x sono correlati dalla disuguaglianza di Jensen , supponendo che esistano entrambi gli integrali, x 2 f ( x ) d x { x f ( x ) d x } 2

Xf(X)dX
X2f(X)dX
Data questa disuguaglianza generale, nulla impedisce alla varianza di diventare arbitrariamente grande. Osserva ladistribuzione tdelloStudentecon ν gradi di libertà, X T ( ν , μ , σ ) e prendi Y = | X | il cui secondo momento è uguale al secondo momento di X , E [ | X | 2 ] = ν
x2f(x)dx{xf(x)dx}2.
ν
XT(ν,μ,σ)
Y=|X|X quandoν>2. Quindi va all'infinito quandoνscende a2, mentre la media diYrimane finita fintanto cheν>1.
E[|X|2]=νν-2σ2+μ2,
ν>2ν2Yν>1

1
Si noti la restrizione esplicita ai valori non negativi nella domanda.
whuber

L'esempio di Student viene facilmente tradotto nell'esempio di valore assoluto di una distribuzione t di Student ...
Xi'an

1
Ma questo cambia la media, ovviamente :-). La domanda riguarda la relazione tra la DS e la media (vedi il suo titolo). Non sto dicendo che ti sbagli; Sto solo (implicitamente) suggerendo che la tua risposta potrebbe, con poco lavoro, rispondere più direttamente alla domanda.
whuber

@whuber: ok, ho modificato quanto sopra per considerare il valore assoluto (ho anche derivato la media del valore assoluto ma <a href=" ceremade.dauphine.fr/~xian/meanabs.pdf"> è piuttosto sgraziato </ a> ...)
Xi'an,

3

Forse l'OP è sorpreso che la media - 1 SD sia un numero negativo (specialmente dove il minimo è 0).

Ecco due esempi che possono chiarire.

Supponi di avere una classe di 20 alunni di prima elementare, di cui 18 hanno 6 anni, 1 è 5 e 1 è 7. Adesso aggiungi l'insegnante di 49 anni. L'età media è di 8.0, mentre la deviazione standard è di 9.402.

Potresti pensare: un intervallo di deviazione standard per questa classe va da -1.402 a 17.402 anni. Potresti essere sorpreso dal fatto che la SD includa un'età negativa, che sembra irragionevole.

Non devi preoccuparti dell'età negativa (o dei grafici 3D che si estendono meno del minimo di 0,0). Intuitivamente, hai ancora circa i due terzi dei dati entro 1 DS dalla media. (In realtà hai il 95% dei dati entro 2 DS dalla media.)

Quando i dati assumono una distribuzione non normale, vedrai risultati sorprendenti come questo.

Secondo esempio Nel suo libro, imbrogliato dalla casualità , Nassim Taleb organizza l'esperimento mentale di un arciere bendato che spara contro un muro di lunghezza inifinta. L'arciere può sparare tra +90 gradi e -90 gradi.

Di tanto in tanto, l'arciere scaglierà la freccia parallelamente al muro e non colpirà mai. Considera quanto la freccia non raggiunge l'obiettivo come distribuzione dei numeri. La deviazione standard per questo scenario sarebbe inifinte.


La regola di circa 2/3 dei dati entro 1 DS della media è per i dati normali. Ma i dati della classe sono chiaramente non normali (anche se superano alcuni test di normalità a causa delle piccole dimensioni del campione). L'esempio di Taleb è terribile. È un esempio di scarsa operatività di una variabile. Preso com'è, sia la media che la DS sarebbero infinite. Ma questa è una sciocchezza. "Quanto manca la freccia" - per me questa è una distanza. La freccia, indipendentemente da come viene lanciata, atterrerà da qualche parte. Misura la distanza da lì al bersaglio. Niente più infinito.
Peter Flom - Ripristina Monica

1
Sì, l'OP è stato sufficientemente sorpreso la prima volta che ho visto la media - 1 SD è diventata negativa per aver scritto una serie completamente nuova di test unitari usando i dati di Excel per confermare che almeno il mio algoritmo stava calcolando gli stessi valori. Perché Excel deve solo essere una fonte autorevole, giusto?
Andy Dent,

@Peter La regola 2/3 (parte di una regola del 68-95-99,7%) è valida per una grande varietà di set di dati, molti dei quali non normali e anche moderatamente distorti. (La regola è abbastanza buona per i datset simmetrici.) La non finezza della DS e la media non sono "sciocchezze". L'esempio di Taleb è una delle poche situazioni non inventate in cui la distribuzione di Cauchy governa chiaramente il processo di generazione dei dati. L'infinità della SD non deriva dalla possibilità di perdere il muro ma dalla distribuzione di colpi reali.
whuber

1
@whuber Ero a conoscenza del tuo primo punto, che è positivo. Non sono d'accordo sul tuo secondo punto in merito a Taleb. Mi sembra un altro esempio inventato.
Peter Flom - Ripristina Monica

3

X

fX(X)=βαΓ(α)Xα-1e-βXio(0,)(X),
α,β>0m>0S>0m>Sm<Sα=m2/S2β=m/S2XE[X]=α/β=mVun'r[X]=α/β2=SXmSRm>Sm<S
> m <- 10
> s <- 1
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 10.01113
> sd(x)
[1] 1.002632

> m <- 1
> s <- 10
> x <- rgamma(10000, shape = m^2/s^2, rate = m/s^2)
> mean(x)
[1] 1.050675
> sd(x)
[1] 10.1139

1

X¯σX[0,c]nn-1

σXX¯(c-X¯)c2
X¯>c/2σXσX=c/20cσX<X¯X¯<c/2σXmin{X¯,c-X¯}{X<0}{X>c}

4
Non penso che la domanda sia se il set di dati sia normale; la sua non normalità è stipulata. La domanda riguarda se potrebbe essersi verificato un errore nel calcolo della deviazione standard, perché l'OP è sorpreso che anche in questo set di dati ovviamente non normale la SD sia molto più grande della media. Se non viene commesso un errore, cosa si può concludere da un coefficiente di variazione così elevato ?
whuber

9
Qualsiasi risposta o commento che asserisce che media e sd di un set di dati non sono correlati è chiaramente errato, poiché entrambi sono funzioni degli stessi dati ed entrambi cambieranno ogni volta che viene modificato uno solo dei valori dei dati. Questa osservazione porta alcuni echi di un'affermazione simile che è vera (ma non terribilmente rilevante per la domanda attuale); vale a dire, che la media del campione e il campione di dati estratti indipendentemente da una distribuzione normale sono indipendenti (in senso probabilistico).
whuber

1

Ciò che sembra avere in mente in modo implicito è un intervallo di previsione che limiterebbe il verificarsi di nuove osservazioni. Il problema è che devi postulare una distribuzione statistica conforme al fatto che le tue osservazioni (aree triangolari) devono rimanere non negative. Il normale non aiuta, ma il log-normale potrebbe andare bene. In termini pratici, prendi il registro delle aree osservate, calcola la media e la deviazione standard, forma un intervallo di predizione usando la distribuzione normale e infine valuta l'esponenziale per i limiti inferiore e superiore - l'intervallo di predizione trasformato non sarà simmetrico intorno la media, ed è garantito per non andare sotto lo zero. Questo è ciò che penso in realtà il PO avesse in mente.


0

Felipe Nievinski indica un vero problema qui. Non ha senso parlare in termini di distribuzione normale quando la distribuzione non è chiaramente una distribuzione normale. I valori completamente positivi con una media relativamente piccola e una deviazione standard relativamente grande non possono avere una distribuzione normale. Quindi, il compito è capire quale tipo di distribuzione si adatta alla situazione. Il post originale suggerisce che una distribuzione normale (o alcuni di questi) era chiaramente in mente. Altrimenti non emergerebbero numeri negativi. Log normale, Rayleigh, Weibull mi viene in mente ... Non lo so, ma mi chiedo cosa potrebbe essere meglio in un caso come questo?

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.