La deviazione standard è totalmente sbagliata? Come si calcola lo std per altezze, conteggi ecc (numeri positivi)?


13

Diciamo che sto calcolando altezze (in cm) e i numeri devono essere più alti di zero.

Ecco l'elenco di esempio:

0.77132064
0.02075195
0.63364823
0.74880388
0.49850701
0.22479665
0.19806286
0.76053071
0.16911084
0.08833981

Mean: 0.41138725956196015
Std: 0.2860541519582141

In questo esempio, secondo la distribuzione normale, il 99,7% dei valori deve essere compreso tra ± 3 volte la deviazione standard dalla media. Tuttavia, anche il doppio della deviazione standard diventa negativo:

-2 x std calculation = 0.41138725956196015 - 0.2860541519582141 x 2 = -0,160721044354468

Tuttavia, i miei numeri devono essere positivi. Quindi devono essere al di sopra di 0. Posso ignorare i numeri negativi ma dubito che questo sia il modo corretto di calcolare le probabilità usando la deviazione standard.

Qualcuno può aiutarmi a capire se lo sto usando in modo corretto? O devo scegliere un metodo diverso?

Beh, a dire il vero, la matematica è matematica. Non importa se si tratta di una distribuzione normale o meno. Se funziona con numeri senza segno, dovrebbe funzionare anche con numeri positivi! Ho sbagliato?

EDIT1: istogramma aggiunto

Per essere più chiari, ho aggiunto l'istogramma dei miei dati reali inserisci qui la descrizione dell'immagine

EDIT2: alcuni valori

Mean: 0.007041500928135767
Percentile 50: 0.0052000000000000934
Percentile 90: 0.015500000000000047
Std: 0.0063790857035425025
Var: 4.06873389299246e-05

28
Penso che l'incomprensione qui sia che una distribuzione che può avere solo numeri positivi non sia normale, quindi la regola del 99,7% che afferma non si applica. In secondo luogo, dalla formula di deviazione standard (di esempio), puoi vedere che nessuna delle condizioni sui valori originali è positiva, quindi perché dovrebbe essere errata? Può darsi che sia usato in modo errato, ma le statistiche sono per lo più agnostiche e non dovrebbero essere applicate senza pensarci.
Momo,

8
La bellezza del 68-95-99.7 regola, @Momo, è che esso non si applica anche alle molte distribuzioni decisamente non-Normal. In questo caso il 50% dei numeri è entro 1 sd dalla media e il 100% è entro 2 sd dalla media. Osserva che il 68% si avvicina con precisione al 50% e il 95% si avvicina con precisione al 100% entro le deviazioni che ci aspetteremmo da un set di dati così piccolo. Pertanto, questo esempio illustra la regola empirica, anche se potrebbe essere un po 'poco convincente a causa delle sue piccole dimensioni.
whuber

2
Sono d'accordo. Consentitemi di correggere questo "quindi la regola del 99,7% che dichiarate non si applica necessariamente ". La fonte della confusione qui sembra applicarla come qualcosa di più di una regola empirica e non in termini di sfumatura "approssimativamente entro le deviazioni che ci aspetteremmo". L'ultimo commento dei PO lo dimostra.
Momo,

4
Il titolo dovrebbe essere cambiato in qualcosa del tipo "Come applicare la regola 68-95-99.7 ai dati che devono essere positivi"? Penso che catturi di più lo spirito della domanda. (Non è un problema con il modo in cui viene calcolata la deviazione standard, che è ciò che suggerisce il titolo, ma piuttosto il modo in cui viene utilizzato per trovare le probabilità.)
Silverfish

4
La deviazione standard non è "sbagliata". Ciò che è meno accurato è trattare come cose normali che non lo sono; le proporzioni al di fuori di un determinato numero di deviazioni standard implicite dalla normalità non saranno sempre accurate per altre distribuzioni. Per distribuzioni unimodali continue, vicino a 2 deviazioni standard gli intervalli su due lati sono spesso abbastanza ragionevoli, ma più lontano le probabilità di coda possono avere errori relativi molto alti.
Glen_b

Risposte:


23

Se i tuoi numeri possono essere solo positivi, allora modellarli come una distribuzione normale potrebbe non essere desiderabile a seconda del tuo caso d'uso, perché la distribuzione normale è supportata su tutti i numeri reali.

Forse vorresti modellare l'altezza come una distribuzione esponenziale o forse una distribuzione normale troncata?

λ


10
La prima frase non è corretta in generale: molte quantità strettamente positive possono essere approssimate da una distribuzione normale. Se la massa di probabilità inferiore a 0 è molto piccola, non ha importanza per tutti gli scopi pratici. In questo caso particolare, è certamente giusto.
COOLSerdash,

13
-1 Questa risposta riflette un malinteso ampiamente diffuso (e imperioso) su cosa sia un modello statistico e cosa significhi realmente modellare i dati con una distribuzione normale. In effetti, se dovessimo credere a ciò che dice questo post, allora "certamente errato" approssimerebbe mai una distribuzione binomiale con una distribuzione normale - ma questo è storicamente l'uso originale e probabilmente più diffuso della distribuzione normale! (Modifica: ho rimosso il downvote perché hai modificato il reclamo originale in uno che è molto più corretto e utile.)
whuber

4
Dipende da cosa intendi per "superiore". Parte del costo di un modello risiede in ciò che serve per implementarlo. Se adotti un modello normale troncato, probabilmente ti stai impegnando in molti calcoli numerici personalizzati anziché in calcoli analitici rapidi, facili e forse meravigliosamente accurati. Un altro scopo di un modello è quello di fornire informazioni : si pensa "se la natura si comporta almeno approssimativamente come questi presupposti, quali conseguenze si possono dedurre da questi presupposti?" Spesso, fare queste inferenze è più facile con una semplice approssimazione.
whuber

2
@whuber: dopo "meravigliosamente preciso" ho aggiunto mentalmente "sbagliato". Scusa. Naturalmente, anche "ma utile" per scatola.
Stephan Kolassa,

2
Anche se i dati sono costituiti da valori non interi?
Kevin Li,

19

"Qual è il modo corretto di applicare 68-95-99.7 al mio caso?"

Ci si dovrebbe aspettare che la regola empirica per la copertura si applichi esattamente solo se si sta (1) osservando l' intera (infinita) popolazione o distribuzione di probabilità teorica e (2) la distribuzione è esattamente normale .

Se si preleva un campione casuale di dimensioni 20, anche da una distribuzione veramente normale, non si troverà sempre che il 95% dei dati (19 dei 20 articoli) si trova entro 2 (o 1.960) deviazioni standard della media. Di fatto, non è garantito che 19 dei 20 articoli rientrino in 1.960 deviazioni standard della popolazione della media della popolazione, né che 19 dei 20 articoli si trovino all'interno di 1.960 deviazioni standard del campione della media del campione.

Se prendi un campione di dati da una distribuzione che non è distribuita normalmente, allora non ci si aspetterebbe che la regola 68-95-99.7 si applichi esattamente. Ma può essere ragionevolmente vicino a farlo, in particolare se la dimensione del campione è grande (la regola empirica "Copertura del 99,7%" potrebbe non essere particolarmente significativa con una dimensione del campione inferiore a 1000) e la distribuzione è ragionevolmente vicina alla normalità. In teoria molti dati come altezza o peso non potrebbero provenire da una distribuzione precisamente normale o ciò implicherebbe una probabilità piccola, ma diversa da zero, di essere negativi. Tuttavia, per i dati con una distribuzione approssimativamente simmetrica e unimodale, in cui i valori mediocri sono più comuni e valori estremamente alti o bassi scendono in probabilità, il modello di una distribuzione normale può essere adeguato a scopi pratici.Se il mio istogramma mostra una curva a forma di campana, posso dire che i miei dati sono normalmente distribuiti?

1/k2kdeviazioni standard dalla media. Ciò garantisce che almeno il 75% dei dati rientri in due deviazioni standard della media e l'89% in tre deviazioni standard. Ma quelle cifre sono solo il minimo teoricamente garantito. Per molte distribuzioni approssimativamente a campana, scoprirai che la cifra di copertura della deviazione a due standard si avvicina molto al 95% rispetto al 75%, e quindi la "regola empirica" ​​della distribuzione normale è ancora utile. D'altra parte, se i tuoi dati provengono da una distribuzione che non è affatto a forma di campana, potresti essere in grado di trovare un modello alternativo che descriva meglio i dati e abbia una diversa regola di copertura.

(Una cosa interessante della regola 68-95-99.7 è che si applica a qualsiasi distribuzione normale, indipendentemente dai suoi parametri per la deviazione media o standard. Allo stesso modo, la disuguaglianza di Chebyshev si applica indipendentemente dai parametri, o anche dalla distribuzione, anche se solo fornisce limiti più bassi per la copertura, ma se si applica, ad esempio, un modello normale troncato o inclinato , non esiste un semplice equivalente della copertura "68-95-99,7", poiché dipenderebbe dai parametri della distribuzione .)


7

Qualcuno può aiutarmi a capire se lo sto usando in modo corretto?

Oh, è facile. No, non lo stai usando correttamente.

Prima di tutto, stai utilizzando un set di dati piuttosto piccolo. Cercare di prendere in giro comportamenti statistici da questo insieme di dimensioni è certamente possibile, ma i limiti di confidenza sono (ahem) piuttosto ampi. Per insiemi di dati di piccole dimensioni, le deviazioni dalle distribuzioni previste sono uguali per il corso e più piccolo è l'insieme maggiore è il problema. Ricorda, "La Legge delle Medie non solo permette le coincidenze più oltraggiose, ma le richiede".

Peggio ancora, il particolare set di dati che stai usando semplicemente non assomiglia molto a una normale distribuzione. Pensaci: con una media di .498 hai due campioni sotto 0,1 e altri tre a .748 o sopra. Quindi hai un gruppo di 3 punti tra .17 e .22. Guardare questo particolare set di dati e sostenere che deve essere una distribuzione normale è un buon caso di argomento procreano. Ti sembra una curva a campana? È perfettamente possibile che una popolazione più ampia segua una distribuzione normale, o modificata, e una dimensione del campione più grande affronterebbe il problema, ma non ci scommetterei, in particolare senza sapere di più sulla popolazione.

Dico normale modificato, poiché, come ha sottolineato Kevin Li, tecnicamente una distribuzione normale include tutti i numeri reali. Come è stato anche sottolineato nei commenti alla sua risposta, ciò non impedisce di applicare tale distribuzione in un intervallo limitato e di ottenere risultati utili. Come dice il proverbio, "Tutti i modelli sono sbagliati. Alcuni sono utili."

Ma questo particolare set di dati semplicemente non sembra inferire una distribuzione normale (anche su un intervallo limitato) è una buona idea. Se i tuoi 10 punti dati fossero .275, .325, .375, .425, .475, .525, .575, .625, .675, .725 (media di 0,500), assumeresti una distribuzione normale?


Ho usato dati casuali per essere in grado di spiegare i miei bisogni e problemi
Don Coder,

1
@DonCoder I dati casuali (a meno che non sia stato modificato in qualche modo) seguiranno la distribuzione uniforme, non la distribuzione normale.
Barrycarter,

5
I dati casuali devono essere generati da una certa distribuzione. Quale hai scelto?
Peter Flom - Ripristina Monica

Ho aggiunto l'istogramma dei miei dati reali
Don Coder,

2

In uno dei commenti dici di aver usato "dati casuali" ma non dici da quale distribuzione. Se stai parlando delle altezze degli esseri umani, sono approssimativamente distribuiti normalmente, ma i tuoi dati non sono lontanamente appropriati per le altezze umane - i tuoi sono frazioni di un cm!

E i tuoi dati non sono remotamente normali. Immagino tu abbia usato una distribuzione uniforme con limiti di 0 e 1. E hai generato un campione molto piccolo. Proviamo con un campione più grande:

set.seed(1234)  #Sets a seed
x <- runif(10000, 0 , 1)
sd(x)  #0.28

quindi, nessuno dei dati è oltre 2 sd dalla media, perché è oltre i limiti dei dati. E la porzione entro 1 sd sarà di circa 0,56.


1

Spesso, quando si ha il vincolo che i campioni devono essere tutti positivi, vale la pena guardare il logaritmo dei dati per vedere se la distribuzione può essere approssimata da una distribuzione lognormale.


1

Un calcolo di deviazione standard è relativo alla media. Potete applicare la deviazione standard ai numeri che sono sempre positivi? Assolutamente. Se dovessi aggiungere 1000 a ciascuno dei valori nel tuo set di campioni, vedresti lo stesso valore di deviazione standard, ma ti avrai fornito più spazio di respirazione sopra lo zero.

s=i=1N(xix¯)2N1=i=1N((xi+k)(x¯+k))2N1

Tuttavia, l'aggiunta di una costante arbitraria ai dati è superficiale. Quando si utilizza la deviazione standard per un set di dati così piccolo, è necessario prevedere un output non raffinato. Considera la deviazione standard come un obiettivo con messa a fuoco automatica: più tempo (dati) fornisci, più chiara sarà l'immagine. Se dopo aver tracciato 1000000 punti dati, la tua deviazione media e standard rimane la stessa di 10, allora potrei iniziare a mettere in discussione la validità del tuo esperimento.


1

L'istogramma mostra che la distribuzione normale non è adatta. Potresti provare lognormale o qualcos'altro che è asimmetrico e strettamente positivo


1

Il punto principale è che molti di noi sono pigri * e la distribuzione normale è conveniente lavorare con noi pigri. È facile fare calcoli usando la distribuzione normale e ha delle buone basi matematiche. Come tale è un "modello" per come lavorare sui dati. Questo modello funziona spesso sorprendentemente bene, e talvolta cade piatto sulla sua faccia.

È molto ovvio che i tuoi campioni non indicano una distribuzione normale nei dati. Quindi la soluzione al tuo dilemma è scegliere un "modello" diverso e lavorare con una distribuzione diversa. Le distribuzioni di Weibull potrebbero essere orientate, ce ne sono altre.

  • pigro nel non conoscere veramente i dati e selezionare i modelli migliori quando necessario.

0

Fondamentalmente stai usando i dati Ratio invece dei dati Interval. I geografi affrontano tutto questo tempo quando calcolano l'S / D per le precipitazioni annuali in un luogo specifico (oltre 100 anni di punti campione al Centro Civico LA) o nevicate (oltre 100 anni di campioni di nevicate a Big Bear Lake). Possiamo avere solo numeri positivi, è così.


0

In meteorologia, le distribuzioni della velocità del vento assomigliano molto a questo. Per definizione, anche le velocità del vento non sono negative.

Quindi nel tuo caso, guarderei sicuramente la distribuzione di Weibull .


0

Inizi con "secondo la distribuzione normale" quando i tuoi dati non sono chiaramente distribuiti normalmente, questo è il primo problema. Dici "Non importa se si tratta di una distribuzione normale o no". Che è un'assurdità assoluta. Non è possibile utilizzare le dichiarazioni sui normali dati distribuiti se i dati non sono distribuiti normalmente.

E tu fraintendi l'affermazione. "Il 99,7% deve trovarsi entro tre deviazioni standard". E il 99,7% dei tuoi dati rientrava effettivamente in tre deviazioni standard. Ancora meglio, era al 100% entro due deviazioni standard. Quindi l'affermazione è vera .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.