Che cos'è una deviazione standard, come viene calcolata e a che cosa serve nelle statistiche?
Che cos'è una deviazione standard, come viene calcolata e a che cosa serve nelle statistiche?
Risposte:
La deviazione standard è un numero che rappresenta la "diffusione" o "dispersione" di un insieme di dati. Esistono altre misure per la diffusione, come intervallo e varianza.
Ecco alcuni set di dati di esempio e le loro deviazioni standard:
[1,1,1] standard deviation = 0 (there's no spread)
[-1,1,3] standard deviation = 1.6 (some spread)
[-99,1,101] standard deviation = 82 (big spead)
I set di dati sopra riportati hanno la stessa media.
Deviazione significa "distanza dalla media".
"Standard" qui significa "standardizzato", il che significa che la deviazione standard e la media sono nelle stesse unità, a differenza della varianza.
Ad esempio, se l'altezza media è di 2 metri , la deviazione standard potrebbe essere di 0,3 metri , mentre la varianza sarebbe di 0,09 metri quadrati .
È conveniente sapere che almeno il 75% dei punti dati si trova sempre entro 2 deviazioni standard della media (o circa il 95% se la distribuzione è normale).
Ad esempio, se la media è 100 e la deviazione standard è 15, almeno il 75% dei valori è compreso tra 70 e 130.
Se la distribuzione risulta normale, il 95% dei valori è compreso tra 70 e 130.
In generale, i punteggi dei test QI sono normalmente distribuiti e hanno una media di 100. Qualcuno che è "molto brillante" è due deviazioni standard sopra la media, il che significa un punteggio test QI di 130.
Una citazione da Wikipedia .
Mostra quanta variazione esiste rispetto alla "media" (valore medio o atteso / preventivato). Una deviazione standard bassa indica che i punti dati tendono ad essere molto vicini alla media, mentre una deviazione standard elevata indica che i dati sono distribuiti su un ampio intervallo di valori.
Quando descriviamo una variabile in genere la riassumiamo usando due misure: una misura del centro e una misura della diffusione. Le misure comuni del centro includono la media, la mediana e la modalità. La misura comune di diffusione include la varianza e l'intervallo interquartile.
La varianza (rappresentata dal sigma minuscolo greco elevato alla potenza due) viene comunemente usata quando viene riportata la media. La varianza è la deviazione quadrata media della variabile. La deviazione viene calcolata sottraendo la media da ogni osservazione. Questo è quadrato perché altrimenti la somma sarebbe zero e la quadratura rimuove questo problema mantenendo la dimensione relativa delle deviazioni. Il problema con l'utilizzo della variazione come misura di diffusione è che si trova in unità quadrate. Ad esempio, se la nostra variabile di interesse fosse l'altezza misurata in pollici, la varianza sarebbe riportata in pollici quadrati, il che ha poco senso. La deviazione standard (rappresentata dal sigma minuscolo greco) è la radice quadrata della varianza e restituisce la misura di diffusione alle unità originali.
Quando si utilizza la deviazione standard, è necessario fare attenzione ai valori anomali poiché distorcono la deviazione standard (e la media) in quanto non sono misure di diffusione resistenti. Un semplice esempio illustrerà questa proprietà. La media dei miei terribili punteggi in battuta di cricket di 13, 14, 16, 23, 26, 28, 33, 39 e 61 è 28,11. Se consideriamo 61 un valore anomalo e lo eliminiamo, la media sarebbe 24.
Ecco come risponderei a questa domanda usando un diagramma.
Diciamo che pesiamo 30 gatti e calcoliamo il peso medio. Quindi produciamo un diagramma a dispersione, con peso sull'asse y e identità del gatto sull'asse x. Il peso medio può essere disegnato come una linea orizzontale. Possiamo quindi tracciare linee verticali che collegano ciascun punto dati alla linea media: queste sono le deviazioni di ciascun punto dati dalla media e li chiamiamo residui. Ora, questi residui possono essere utili perché possono dirci qualcosa sulla diffusione dei dati: se ci sono molti grandi residui, i gatti variano molto in massa. Al contrario, se i residui sono per lo più piccoli, i gatti sono abbastanza raggruppati attorno al peso medio. Quindi, se potessimo avere qualche metrica che ci dice la medialunghezza di un residuo in questo set di dati, questo sarebbe un modo pratico per indicare quanta diffusione c'è nei dati. La deviazione standard è, in effetti, la lunghezza del residuo medio.
Seguirò questo dando il calcolo per sd, spiegando perché quadriamo e poi quadriamo radice (mi piace la breve e dolce spiegazione di Vaibhav). Quindi vorrei citare i problemi dei valori anomali, come fa Graham nel suo ultimo paragrafo.
Se le informazioni richieste sono la distribuzione dei dati sulla media, la deviazione standard è utile.
La somma della differenza di ciascun valore dalla media è zero (ovviamente, poiché il valore è distribuito uniformemente intorno alla media), quindi quadriamo ogni differenza in modo da convertire i valori negativi in positivi, sommarli in tutta la popolazione e prendere il loro radice quadrata. Questo valore viene quindi diviso per il numero di campioni (o, la dimensione della popolazione). Questo dà la deviazione standard.
Una deviazione standard è la radice quadrata del secondo momento centrale di una distribuzione. Un momento centrale è la differenza attesa dal valore atteso della distribuzione. Un primo momento centrale di solito sarebbe 0, quindi definiamo un secondo momento centrale come il valore atteso della distanza al quadrato di una variabile casuale dal suo valore atteso.
Per metterlo su una scala più in linea con le osservazioni originali, prendiamo la radice quadrata di quel secondo momento centrale e la chiamiamo deviazione standard.
La deviazione standard è di proprietà di una popolazione. Misura quanta "dispersione" media esiste per quella popolazione. Tutti gli ostacoli sono raggruppati attorno alla media o sono ampiamente diffusi?
Per stimare la deviazione standard di una popolazione, spesso calcoliamo la deviazione standard di un "campione" da quella popolazione. Per fare ciò, prendi osservazioni da quella popolazione, calcoli una media di quelle osservazioni e quindi calcoli la radice quadrata della deviazione quadrata media da quella "media campionaria".
Per ottenere uno stimatore imparziale della varianza, in realtà non si calcola la deviazione quadrata media dalla media del campione, ma invece si divide per (N-1) dove N è il numero di osservazioni nel campione. Si noti che questa "deviazione standard del campione" non è uno stimatore imparziale della deviazione standard, ma il quadrato della "deviazione standard del campione" è uno stimatore imparziale della varianza della popolazione.
Il modo migliore in cui ho capito la deviazione standard è pensare a un parrucchiere! (È necessario raccogliere dati da un parrucchiere e calcolare la velocità di taglio dei suoi capelli affinché questo esempio funzioni.)
Il parrucchiere impiega in media 30 minuti a tagliare i capelli di una persona.
Supponi di fare il calcolo (la maggior parte dei pacchetti software lo farà per te) e scopri che la deviazione standard è di 5 minuti. Significa quanto segue:
Come faccio a saperlo? Devi guardare la curva normale, in cui il 68% rientra in 1 deviazione standard e il 96% rientra in 2 deviazioni standard della media (in questo caso 30 minuti). Quindi aggiungi o sottrai la deviazione standard dalla media.
Se si desidera la coerenza, come in questo caso, più piccola è la deviazione standard, migliore è. In questo caso, il parrucchiere trascorre un massimo di circa 40 minuti con un determinato cliente. È necessario tagliare i capelli velocemente per gestire un salone di successo!