Che cos'è una deviazione standard?


31

Che cos'è una deviazione standard, come viene calcolata e a che cosa serve nelle statistiche?


7
Non credo che lo scopo di questo sito sia di rispondere alle domande dei bambini di 6 ° elementare. E mio figlio, di fronte a una domanda del genere, avrebbe cercato su Google la risposta. Se esiste una parte specifica della definizione che non capisci, chiedi pure. Ma una domanda così sfocata su un argomento così fondamentale indica (per me comunque) che il poster non ha nemmeno cercato di trovare una risposta. Quale sarà il prossimo "Che cos'è un numero e come vengono utilizzati?"
PeterR

9
Penso che questa domanda sia ok. In realtà, è stato l'esempio più votato sulla questione argomento in Area 51. Qui le basi sono ok!
Peter Smit,

6
D'accordo, è una domanda valida. È anche ben affermato in quanto richiede ad esempio l'utilizzo e il calcolo. Sicuramente lo scopo del sito è quello di creare un repository per TUTTE le domande statistiche.
Gioele,

5
Sono d'accordo con Joel. La deviazione standard è un concetto importante nelle statistiche. Non sarebbe assurdo se non si potesse porre una domanda al riguardo su un sito per porre domande statistiche.
Parbury,

4
Come insegnante di liceo in una vita precedente, dirò che non ci sono domande sciocche. Nel momento in cui etichetti una domanda come indegna, nel momento in cui porti via il modo più potente di imparare, quello è porre domande! (
Risponderò

Risposte:


30

La deviazione standard è un numero che rappresenta la "diffusione" o "dispersione" di un insieme di dati. Esistono altre misure per la diffusione, come intervallo e varianza.

Ecco alcuni set di dati di esempio e le loro deviazioni standard:

[1,1,1]     standard deviation = 0   (there's no spread)  
[-1,1,3]    standard deviation = 1.6 (some spread) 
[-99,1,101] standard deviation = 82  (big spead)

I set di dati sopra riportati hanno la stessa media.

Deviazione significa "distanza dalla media".

"Standard" qui significa "standardizzato", il che significa che la deviazione standard e la media sono nelle stesse unità, a differenza della varianza.

Ad esempio, se l'altezza media è di 2 metri , la deviazione standard potrebbe essere di 0,3 metri , mentre la varianza sarebbe di 0,09 metri quadrati .

È conveniente sapere che almeno il 75% dei punti dati si trova sempre entro 2 deviazioni standard della media (o circa il 95% se la distribuzione è normale).

Ad esempio, se la media è 100 e la deviazione standard è 15, almeno il 75% dei valori è compreso tra 70 e 130.

Se la distribuzione risulta normale, il 95% dei valori è compreso tra 70 e 130.

In generale, i punteggi dei test QI sono normalmente distribuiti e hanno una media di 100. Qualcuno che è "molto brillante" è due deviazioni standard sopra la media, il che significa un punteggio test QI di 130.


Neil, grazie per la tua risposta, potresti per favore spiegare in maggior dettaglio la parte "standard" nel termine "deviazione standard". Se è appropriato, potresti toccare lo stesso "standard" nel termine "errore standard della media". Grazie in anticipo.
Stan

Per quanto riguarda le modifiche recenti: in che senso la SD è "standardizzata"? Di solito, diventa la base per la standardizzazione, ma non è essa stessa standardizzata (come riscalarla da una stima della sua variazione di campionamento).
whuber

È standardizzato per essere nella stessa unità della media
Neil McGuigan il

L'esempio con un'altezza media di 2 metri è un buon esempio della necessità di occuparsi dell'uso dei decimali. Lo stesso esempio potrebbe essere fatto in centimetri in cui una deviazione standard di 30 centimetri deriverebbe logicamente da una varianza di 900 centimetri.
Robert Jones,

La mia impressione è che dovrebbero essere evitati nelle unità di misura primarie. Considera i risultati dicono di una SD di 0,133 in metri convertiti in decimetri, centimetri e millimetri. Qualcuno vorrebbe chiarire, per favore?
Robert Jones,

9

Una citazione da Wikipedia .

Mostra quanta variazione esiste rispetto alla "media" (valore medio o atteso / preventivato). Una deviazione standard bassa indica che i punti dati tendono ad essere molto vicini alla media, mentre una deviazione standard elevata indica che i dati sono distribuiti su un ampio intervallo di valori.


5

Quando descriviamo una variabile in genere la riassumiamo usando due misure: una misura del centro e una misura della diffusione. Le misure comuni del centro includono la media, la mediana e la modalità. La misura comune di diffusione include la varianza e l'intervallo interquartile.

La varianza (rappresentata dal sigma minuscolo greco elevato alla potenza due) viene comunemente usata quando viene riportata la media. La varianza è la deviazione quadrata media della variabile. La deviazione viene calcolata sottraendo la media da ogni osservazione. Questo è quadrato perché altrimenti la somma sarebbe zero e la quadratura rimuove questo problema mantenendo la dimensione relativa delle deviazioni. Il problema con l'utilizzo della variazione come misura di diffusione è che si trova in unità quadrate. Ad esempio, se la nostra variabile di interesse fosse l'altezza misurata in pollici, la varianza sarebbe riportata in pollici quadrati, il che ha poco senso. La deviazione standard (rappresentata dal sigma minuscolo greco) è la radice quadrata della varianza e restituisce la misura di diffusione alle unità originali.

Quando si utilizza la deviazione standard, è necessario fare attenzione ai valori anomali poiché distorcono la deviazione standard (e la media) in quanto non sono misure di diffusione resistenti. Un semplice esempio illustrerà questa proprietà. La media dei miei terribili punteggi in battuta di cricket di 13, 14, 16, 23, 26, 28, 33, 39 e 61 è 28,11. Se consideriamo 61 un valore anomalo e lo eliminiamo, la media sarebbe 24.


1
σ2σ

2

Ecco come risponderei a questa domanda usando un diagramma.

Diciamo che pesiamo 30 gatti e calcoliamo il peso medio. Quindi produciamo un diagramma a dispersione, con peso sull'asse y e identità del gatto sull'asse x. Il peso medio può essere disegnato come una linea orizzontale. Possiamo quindi tracciare linee verticali che collegano ciascun punto dati alla linea media: queste sono le deviazioni di ciascun punto dati dalla media e li chiamiamo residui. Ora, questi residui possono essere utili perché possono dirci qualcosa sulla diffusione dei dati: se ci sono molti grandi residui, i gatti variano molto in massa. Al contrario, se i residui sono per lo più piccoli, i gatti sono abbastanza raggruppati attorno al peso medio. Quindi, se potessimo avere qualche metrica che ci dice la medialunghezza di un residuo in questo set di dati, questo sarebbe un modo pratico per indicare quanta diffusione c'è nei dati. La deviazione standard è, in effetti, la lunghezza del residuo medio.

Seguirò questo dando il calcolo per sd, spiegando perché quadriamo e poi quadriamo radice (mi piace la breve e dolce spiegazione di Vaibhav). Quindi vorrei citare i problemi dei valori anomali, come fa Graham nel suo ultimo paragrafo.


1

Se le informazioni richieste sono la distribuzione dei dati sulla media, la deviazione standard è utile.

La somma della differenza di ciascun valore dalla media è zero (ovviamente, poiché il valore è distribuito uniformemente intorno alla media), quindi quadriamo ogni differenza in modo da convertire i valori negativi in ​​positivi, sommarli in tutta la popolazione e prendere il loro radice quadrata. Questo valore viene quindi diviso per il numero di campioni (o, la dimensione della popolazione). Questo dà la deviazione standard.


". Quindi quadriamo ogni differenza ...." Potremmo prendere il valore assoluto per sbarazzarci anche di valori negativi. Quindi, perché la quadratura è un metodo migliore poiché alla fine dobbiamo prendere una radice quadrata? Perché non semplicemente sommare i valori assoluti delle deviazioni?
Dilip Sarwate,

Visto questo? collegamento
Vaibhav Garg

45

1
@DilipSarwate, con tutto il rispetto, la prova per autorità non mi impressiona. L'ipotesi che "quindi" sia "autorevole" è un "uomo di paglia" che preferirei ignorare. Il livello di dettaglio in una determinata affermazione è commisurato all'inclinazione e / o al significato pedagogico della stessa in un dato contesto. Suppongo che una persona che sta chiedendo "Cos'è una deviazione standard, com'è ... così via?" potrebbe non voler essere gravato da rigorose definizioni matematiche dello stesso. La semplificazione è deliberata e, lascia che te lo assicuri, non è il risultato del non essere consapevole.
Vaibhav Garg,

1
E che cosa, prego, è ... "quindi quadriamo ..." diverso da una prova dell'autorità che non ti impressiona? Non vi è alcun motivo logico per cui la quadratura sia automaticamente la soluzione al problema, come implica il tuo "quindi".
Dilip Sarwate,

1

Mi piace pensarlo come segue: la deviazione standard è la distanza media dalla media . Questo è più concettualmente utile che matematicamente utile, ma è un bel modo di spiegarlo ai non iniziati.


0

Una deviazione standard è la radice quadrata del secondo momento centrale di una distribuzione. Un momento centrale è la differenza attesa dal valore atteso della distribuzione. Un primo momento centrale di solito sarebbe 0, quindi definiamo un secondo momento centrale come il valore atteso della distanza al quadrato di una variabile casuale dal suo valore atteso.

Per metterlo su una scala più in linea con le osservazioni originali, prendiamo la radice quadrata di quel secondo momento centrale e la chiamiamo deviazione standard.

La deviazione standard è di proprietà di una popolazione. Misura quanta "dispersione" media esiste per quella popolazione. Tutti gli ostacoli sono raggruppati attorno alla media o sono ampiamente diffusi?

Per stimare la deviazione standard di una popolazione, spesso calcoliamo la deviazione standard di un "campione" da quella popolazione. Per fare ciò, prendi osservazioni da quella popolazione, calcoli una media di quelle osservazioni e quindi calcoli la radice quadrata della deviazione quadrata media da quella "media campionaria".

Per ottenere uno stimatore imparziale della varianza, in realtà non si calcola la deviazione quadrata media dalla media del campione, ma invece si divide per (N-1) dove N è il numero di osservazioni nel campione. Si noti che questa "deviazione standard del campione" non è uno stimatore imparziale della deviazione standard, ma il quadrato della "deviazione standard del campione" è uno stimatore imparziale della varianza della popolazione.


6
questa è una risposta incredibilmente poco chiara. Per favore prova a scrivere in inglese.
Neil McGuigan,

1
può darsi. è una persona che pone questa domanda a una persona che è entrata per strada o che ha almeno aperto un libro di statistiche. Dire a qualcuno che la deviazione standard è solo la radice quadrata della varianza sta chiedendo completamente la domanda.
Baltimark,

-1

Il modo migliore in cui ho capito la deviazione standard è pensare a un parrucchiere! (È necessario raccogliere dati da un parrucchiere e calcolare la velocità di taglio dei suoi capelli affinché questo esempio funzioni.)

Il parrucchiere impiega in media 30 minuti a tagliare i capelli di una persona.

Supponi di fare il calcolo (la maggior parte dei pacchetti software lo farà per te) e scopri che la deviazione standard è di 5 minuti. Significa quanto segue:

  • il parrucchiere taglia i capelli del 68% dei suoi clienti in 25 minuti e 35 minuti
  • il parrucchiere taglia i capelli del 96% dei suoi clienti entro 20 e 40 minuti

Come faccio a saperlo? Devi guardare la curva normale, in cui il 68% rientra in 1 deviazione standard e il 96% rientra in 2 deviazioni standard della media (in questo caso 30 minuti). Quindi aggiungi o sottrai la deviazione standard dalla media.

Se si desidera la coerenza, come in questo caso, più piccola è la deviazione standard, migliore è. In questo caso, il parrucchiere trascorre un massimo di circa 40 minuti con un determinato cliente. È necessario tagliare i capelli velocemente per gestire un salone di successo!


Non credo che tu abbia corretto la risposta, Adhesh. Hai alcune informazioni contraddittorie qui. Vedi se sei d'accordo con le mie modifiche, ok?
rolando2,

1
Hai descritto l'interpretazione della deviazione standard solo nel caso della distribuzione normale. La "regola del 68%" e (e la regola del 95%) si applicano solo ai dati normalmente distribuiti. Almeno affermare che i due punti elenco sono veri solo se i tempi di taglio seguono una distribuzione normale.
Macro

Macro, ho menzionato la curva normale ed è un dato di fatto che se si utilizza la curva normale, i dati seguiranno una distribuzione normale.
Adhesh Josh,

@ rolando2 Non riesco a capire cosa c'è che non va nella spiegazione di
Adhesh

@Amarald - hai cliccato su "31 gennaio alle 1:06" per vedere le versioni prima e dopo la modifica? Penso che la risposta sia più forte dopo, anche se Macro fa anche un punto importante.
rolando2,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.