La mia intuizione è che la deviazione standard è: una misura della diffusione dei dati.
Hai un buon punto sul fatto che, a prescindere dal fatto che sia ampio o stretto, dipende dal nostro presupposto sottostante per la distribuzione dei dati.
Avvertenza: una misura della diffusione è molto utile quando la distribuzione dei dati è simmetrica attorno alla media e presenta una varianza relativamente vicina a quella della distribuzione normale. (Ciò significa che è approssimativamente normale.)
Nel caso in cui i dati siano approssimativamente normali, la deviazione standard ha un'interpretazione canonica:
- Regione: media del campione +/- 1 deviazione standard, contiene circa il 68% dei dati
- Regione: media campione +/- 2 deviazione standard, contiene circa il 95% dei dati
- Regione: media campione +/- 3 deviazione standard, contiene circa il 99% dei dati
(vedi la prima grafica in Wiki )
Ciò significa che se sappiamo che la media della popolazione è 5 e la deviazione standard è 2,83 e supponiamo che la distribuzione sia approssimativamente normale, ti direi che sono ragionevolmente certo che se facciamo (una grande) molte osservazioni, solo il 5% lo farà essere più piccolo di 0.4 = 5 - 2 * 2.3 o più grande di 9.6 = 5 + 2 * 2.3.
Notare qual è l'impatto della deviazione standard sul nostro intervallo di confidenza? (maggiore è la diffusione, maggiore è l'incertezza)
Inoltre, nel caso generale in cui i dati non sono nemmeno approssimativamente normali, ma comunque simmetrici, sai che esistono alcuni per i quali:α
- Regione: media campione +/- deviazione standard, contiene circa il 95% dei datiα
Puoi imparare l' da un sottocampione o assumere α = 2 e questo ti dà spesso una buona regola empirica per calcolare nella tua testa quali osservazioni future aspettarti o quali delle nuove osservazioni possono essere considerate come valori anomali. (tieni a mente l'avvertimento però!)αα=2
Non vedo come dovresti interpretarlo. 2,83 significa che i valori sono molto ampi o sono tutti strettamente raggruppati attorno alla media ...
Immagino che ogni domanda che ponga "ampia o stretta" dovrebbe contenere anche: "in relazione a cosa?". Un suggerimento potrebbe essere quello di utilizzare una distribuzione ben nota come riferimento. A seconda del contesto potrebbe essere utile pensare: "È molto più ampio o più stretto di un normale / poisson?".
EDIT: basato su un utile suggerimento nei commenti, un altro aspetto sulla deviazione standard come misura della distanza.
Ancora un'altra intuizione dell'utilità della deviazione standard è che si tratta di una misura di distanza tra i dati del campione x 1 , ... , x N e la sua media ˉ x :sNx1,…,xNx¯
sN=1N∑Ni=1(xi−x¯¯¯)2−−−−−−−−−−−−−√
A titolo di confronto, l'errore quadratico medio (MSE), una delle misure di errore più popolari nelle statistiche, è definito come:
MSE=1n∑ni=1(Yi^−Yi)2
Le domande possono essere sollevate perché la funzione di distanza sopra? Perché distanze quadrate e non distanze assolute per esempio? E perché stiamo prendendo la radice quadrata?
Avere funzioni di distanza quadratica, o errore, ha il vantaggio che possiamo sia differenziarle che minimizzarle facilmente. Per quanto riguarda la radice quadrata, si aggiunge all'interpretazione come converte l'errore nella scala dei nostri dati osservati.