Spiegazione intuitiva per la divisione per


136

Mi è stato chiesto oggi in classe perché dividere la somma dell'errore quadrato per anziché con , quando si calcola la deviazione standard.nn1n

Ho detto che non risponderò in classe (dal momento che non volevo entrare in stimatori imparziali), ma più tardi mi sono chiesto - c'è una spiegazione intuitiva per questo ?!


29
Vorrei citare questo zenzero dal libro Ricette numeriche : "... se la differenza tra e importante per te, allora probabilmente non hai nessun vantaggio - ad esempio, provare a fondare un'ipotesi discutibile con dati marginali ". n - 1nn1
JM non è uno statistico il

11
una spiegazione davvero elegante e intuitiva è presentata qui (sotto la prova) en.wikipedia.org/wiki/… L'idea di base è che le tue osservazioni saranno, naturalmente, più vicine alla media del campione che alla media della popolazione.
WetlabStudent,

12
@Tal, ecco perché le scuole fanno schifo. Chiedete loro "perché questo ?", E loro rispondono "memorizzatelo".
Pacerier,

1
Se stai cercando una spiegazione intuitiva, dovresti vedere il motivo per te stesso prendendo campioni! Guarda questo, risponde esattamente alla tua domanda. youtube.com/watch?v=xslIhnquFoE
Sahil Chaudhary

tl; dr: (dalla prima risposta :) "... la deviazione standard che viene calcolata usando le deviazioni dalla media del campione sottostima la deviazione standard desiderata della popolazione ..." Vedi anche: en.wikipedia.org/wiki/… Quindi, a meno che tu non abbia voglia di calcolare qualcosa di piuttosto complesso, usa semplicemente n-1 se proviene da un campione.
Andrew,

Risposte:


99

La deviazione standard calcolata con un divisore di è una deviazione standard calcolata dal campione come stima della deviazione standard della popolazione da cui è stato prelevato il campione. Poiché i valori osservati diminuiscono, in media, più vicini alla media del campione che alla media della popolazione, la deviazione standard che viene calcolata usando le deviazioni dalla media del campione sottostima la deviazione standard desiderata della popolazione. Usando invece di come il divisore corregge per questo rendendo il risultato un po 'più grande.n - 1 nn1n1n

Si noti che la correzione ha un effetto proporzionale maggiore quando è piccolo rispetto a quando è grande, che è quello che vogliamo perché quando n è più grande la media del campione è probabilmente un buon stimatore della media della popolazione.n

Quando il campione è l'intera popolazione, usiamo la deviazione standard con come divisore perché la media del campione è media della popolazione.n

(Noto tra parentesi che nulla che inizia con "il secondo momento, moderato attorno a un mezzo noto e definito", soddisferà la richiesta dell'interrogatore per una spiegazione intuitiva.)


13
Non confondiamo "intuitivo" con "non tecnico".
whuber

32
@Michael, questo non spiega perché usiamo al n−1posto di n−2(o anche n−3)?
Pacerier,

1
@Pacerier Dai un'occhiata alla risposta di Whuber qui sotto per i dettagli su questo punto. In sostanza, la correzione è n-1 anziché n-2 ecc. Perché la correzione n-1 fornisce risultati molto vicini a ciò di cui abbiamo bisogno. Correzioni più esatte sono mostrate qui: en.wikipedia.org/wiki/Unbiased_estimation_of_standard_deviation
Michael Lew

1
Ciao @Michael, quindi perché la deviazione calcolata dalla media del campione tende ad essere più piccola della media della popolazione?
Allen,

1
"Poiché i valori osservati scendono, in media, più vicini alla media del campione che alla media della popolazione, la deviazione standard che viene calcolata usando le deviazioni dalla media del campione sottostima la deviazione standard desiderata della popolazione." Perché la media del campione sottovaluta sempre? E se sopravvalutasse?
Bora M. Alper,

55

Uno comune è che la definizione di varianza (di una distribuzione) è il secondo momento recentemente aggiornato attorno a una media nota e definita , mentre lo stimatore usa una media stimata . Questa perdita di un grado di libertà (data la media, è possibile ricostituire il set di dati con la conoscenza di solo dei valori dei dati) richiede l'uso di anziché di per "regolare" il risultato.n - 1 nn1n1n

Tale spiegazione è coerente con le varianze stimate nell'analisi ANOVA e dei componenti di varianza. È davvero solo un caso speciale.

La necessità di apportare qualche aggiustamento che gonfia la varianza può, credo, essere chiarita intuitivamente con un argomento valido che non è solo un gesto ex post fatto a mano. (Ricordo che lo studente potrebbe aver sollevato una simile argomentazione nel suo articolo del 1908 sul test t.) Perché la correzione della varianza dovrebbe essere esattamente un fattore di è più difficile da giustificare, specialmente se si considera che la DS rettificata non è uno stimatore imparziale. (È semplicemente la radice quadrata di uno stimatore imparziale della varianza. Essere imparziale di solito non sopravvive a una trasformazione non lineare.) Quindi, in effetti, la corretta regolazione della DS per rimuovere la sua distorsione non è un fattore din/(n1)n/(n1) affatto!

Alcuni libri di testo introduttivi non si preoccupano nemmeno di introdurre lo sd modificato: insegnano una formula (dividi per ). Per prima cosa ho reagito negativamente a questo quando ho insegnato da un libro del genere, ma ho imparato ad apprezzare la saggezza: concentrandosi su concetti e applicazioni, gli autori eliminano tutte le inessenziali abilità matematiche. Si scopre che nulla è ferito e nessuno viene ingannato.n


1
Grazie Whuber. Devo insegnare agli studenti con la correzione n-1, quindi dividere in n solo non è un'opzione. Come scritto prima di me, menzionare la connessione al secondo momento non è un'opzione. Anche se menzionare come fosse già stata stimata la media, lasciandoci quindi con meno "dati" per l'SD, è importante. Per quanto riguarda il pregiudizio della sd - mi sono ricordato di averlo incontrato - grazie per aver guidato quel punto a casa. Meglio, Tal
Tal Galili,

3
@Tal stavo scrivendo nella tua lingua, non in quella dei tuoi studenti, perché sono sicuro che sarai pienamente in grado di tradurlo in qualunque cosa tu sappia che li raggiungerà. In altre parole, ho interpretato "intuitivo" nella tua domanda per significare intuitivo per te .
whuber

1
Ciao Whuber. Grazie per il voto di fiducia :). La perdita del grado di libertà per la stima dell'aspettativa è quella che stavo pensando di usare in classe. Il problema è che il concetto di "gradi di libertà" di per sé è uno che ha bisogno di conoscenza / intuizione. Ma combinarlo con alcune delle altre risposte fornite in questo thread sarà utile (per me e spero che altri in futuro). Meglio, Tal
Tal Galili,

Per grandi , in genere non c'è molta differenza tra la divisione per n o n - 1 , quindi sarebbe accettabile introdurre la formula non corretta a condizione che fosse destinata ad applicare a campioni di grandi dimensioni, no? nnn1
PatrickT,

1
@Patrick Potresti leggere troppo nella mia risposta, perché è esplicito sui motivi: sono pedagogici e non hanno nulla a che fare con il fatto che sia grande o meno. n
whuber

50

Per definizione, la varianza viene calcolata prendendo la somma delle differenze al quadrato dalla media e dividendola per la dimensione. Abbiamo la formula generale

doveμè la media eNè la dimensione della popolazione.σ2=iN(Xiμ)2NμN

Secondo questa definizione, anche la varianza di un campione (ad es. Campione ) deve essere calcolata in questo modo.t

dove ¯ X è la media enè la dimensione di questo piccolo campione.σt2=in(XiX¯)2nX¯n

Tuttavia, per varianza del campione , intendiamo uno stimatore della varianza della popolazione σ 2 . Come possiamo stimare σ 2 solo usando i valori del campione?S2σ2σ2

Secondo le formule precedenti, la variabile casuale discosta dalla media del campione ¯ X con varianza σ 2 t . Anche la media del campione ¯ X si discosta da μ con varianza σ 2XX¯σt2X¯μ perché la media campionaria ottiene valori diversi da campione a campione ed è una variabile casuale con mediaμe varianzaσ2σ2nμ . (Uno può dimostrare facilmente.)σ2n

Pertanto, all'incirca, dovrebbe deviare da μ con una varianza che coinvolge due varianze, quindi sommare queste due e ottenere σ 2 = σ 2 t + σ 2Xμ . Risolvendo questo, otteniamoσ2=σ 2 t ×nσ2=σt2+σ2n . La sostituzione diσ 2 t fornisce al nostro stimatore la varianza della popolazione:σ2=σt2×nn1σt2

.S2=in(XiX¯)2n1

Si può anche dimostrare che è vero.E[S2]=σ2


Spero che questo non sia troppo banale: è il fatto che la media del campione converge in ND ( , σμ ) man mano che n diventa arbitrariamente grande, il motivo per cui la media campionaria si discosta dalla media reale con varianzaσ2σn ? σ2n
RexYuan,

6
Questa è una spiegazione migliore delle altre perché mostra le equazioni e le derivazioni invece di andare semplicemente in yagga yagga con termini statistici.
Nav

1
@sevenkul possiamo alcuni come visualizzarlo visivamente? quando dici, X dovrebbe deviare da con quella varianza netta, mi sono perso nel visualizzarloμ
Parthiban Rajendran

17

Questa è un'intuizione totale, ma la risposta più semplice è quella di una correzione fatta per rendere indefinita la deviazione standard del campione di un elemento anziché 0.


11
Perché no, quindi, utilizzare o anche1nn21 come correzioni? :-)1exp(1)exp(1/n)
whuber

1
@whuber Parsimony (-;

4
è ancora più "parsimonioso". :-)1n1
whuber

2
@mbq, per quanto riguarda la tua risposta ~ "è una correzione apportata per rendere indefinita la deviazione standard del campione a un elemento anziché 0", è davvero questo il motivo o è una risposta scherzosa? Sai che i non padri come noi non possono dirlo.
Pacerier,

4
Formalmente, è una conseguenza che la ragione, ma, come ho scritto, trovo che sia una buona idea per memorizzarla.

14

È possibile ottenere una comprensione più profonda del termine attraverso la sola geometria, non solo perché non è n ma perché assume esattamente questa forma, ma potrebbe essere necessario prima costruire l'intuizione per far fronte alla geometria n- dimensionale. Da lì, tuttavia, è un piccolo passo verso una comprensione più profonda dei gradi di libertà nei modelli lineari (cioè modello df e residuo df). Penso che non ci siano dubbi sul fatto che Fisher la pensasse così. Ecco un libro che lo costruisce gradualmente:n1nn

Saville DJ, Wood GR. Metodi statistici: l'approccio geometrico . 3a edizione. New York: Springer-Verlag; 1991. 560 pagine. 9780387975177

(Sì, 560 pagine. L'ho detto gradualmente.)


Grazie onestop - Non pensavo che ci sarebbe stata una risposta da quella direzione. Un modo per riassumere l'intuizione o non è probabile che sia possibile? Saluti, Tal
Tal Galili,

Non potevo farlo da solo, ma un critico di libri ha sintetizzato l'approccio in un paragrafo di Amer. Statistica. nel 1993: jstor.org/stable/2684984 . Non sono sicuro che sia davvero pratico usare questo approccio con i tuoi studenti a meno che non lo adotti per l'intero corso.
onestop

Puoi riassumere un po 'dell'intuizione piuttosto che solo un riferimento al libro?
oliversm,

12

Lo stimatore della varianza della popolazione è distorto quando applicato su un campione della popolazione. Per adattarsi a tale distorsione, è necessario dividere per n-1 anziché per n. Si può dimostrare matematicamente che lo stimatore della varianza del campione è imparziale quando dividiamo per n-1 anziché per n. Una prova formale è fornita qui:

https://economictheoryblog.com/2012/06/28/latexlatexs2/

Inizialmente era la correttezza matematica che ha portato alla formula, suppongo. Tuttavia, se si desidera aggiungere intuizione a una formula, i suggerimenti già menzionati sembrano ragionevoli.

Innanzitutto, le osservazioni di un campione sono in media più vicine alla media del campione che alla media della popolazione. Lo stimatore di varianza utilizza la media del campione e di conseguenza sottovaluta la varianza reale della popolazione. Dividendo per n-1 invece di n corregge questo pregiudizio.

Inoltre, la divisione per n-1 rende la varianza di un campione a un elemento indefinita anziché zero.


12

Perché dividere per anziché per n ? Perché è consuetudine e risulta in una stima imparziale della varianza. Tuttavia, risulta in una stima parziale (bassa) della deviazione standard, come si può vedere applicando la disuguaglianza di Jensen alla funzione concava, radice quadrata.n1n

nn1


8
n1

1
La mia ultima frase è stata un consiglio amichevole per tutti gli interessati, al contrario di un attacco al PO.
Mark L. Stone,

In molti casi, non importa, se usato nei test o per intervalli di confidenza, bisognerebbe regolare altre parti della procedura e alla fine ottenere lo stesso risultato!
kjetil b halvorsen,

8

αz2+2βz+γz=βαnx1,x2,,xn

G(a)=i=1n(xia)2=(i=1nxi2)2a(i=1nxi)+na2,
a=1ni=1nxi=x¯

xinμσ2μ1ni=1nxi=x¯σ21ni=1n(xiμ)2=n1G(μ)μG(x¯)G(μ)G(x¯)G(μ)G(μ)G(x¯)nn1

(1)G(μ)nn1G(x¯)
n1G(μ)=1ni=1n(xiμ)21n1G(x¯)=1n1i=1n(xix¯)2.

(1)

G(μ)=i=1n(xiμ)2=i=1n(xix¯+x¯μ)2=i=1n((xix¯)2+(x¯μ)2+2(xix¯)(x¯μ))=G(x¯)+n(x¯μ)2+(x¯μ)i=1n(xix¯)(2)=G(x¯)+n(x¯μ)2
i=1n(xix¯)=nx¯nx¯=0
n(x¯μ)2=n1n2(i=1n(xiμ))2=1ni=1n(xiμ)2+2ni=1nj=i+1n(xiμ)(xjμ)(3)=1nG(μ)+2ni=1nj=i+1n(xiμ)(xjμ)
xiμμ(xiμ)(xjμ)(3)1nG(μ)(3)(2)
G(μ)G(x¯)+1nG(μ)G(μ)nn1G(x¯)
(1)

8
Solo su questo scambio di stack questa sarebbe mai stata considerata una risposta intuitiva.
Joseph Garvin,

6

(xixj)2/2

s2=2n(n1)i<j(xixj)22=1n1i=1n(xix¯)2.

XY

V(X)=E((XY)22)=E((XE(X))2).

Passare dalla definizione variabile casuale della varianza alla definizione della varianza del campione è una questione di stima di un'aspettativa con una media che può essere giustificata dal principio filosofico della tipicità: il campione è una rappresentazione tipica della distribuzione. (Nota, questo è correlato, ma non è uguale alla stima per momenti.)


2
V(X)=E((XY)22)=E((XE(X))2)

4
(xixi)2s2nn1

4

N=1xm¯=x1

V=N(xnm¯)2N

V¯=(xm¯)21=0.

yxyN1=0

0d+1dd+1


Non è chiaro il motivo per cui "una varianza infinita sarebbe un risultato più solido" di una varianza zero. In effetti, sembri usare la "varianza del campione" nel senso di uno stimatore di varianza , che è ancora più confuso.
whuber

1
0<

4

Su suggerimento di whuber , questa risposta è stata copiata da un'altra domanda simile .

La correzione di Bessel viene adottata per correggere la distorsione nell'uso della varianza del campione come stimatore della varianza vera. La distorsione nella statistica non corretta si verifica perché la media del campione è più vicina al centro delle osservazioni rispetto alla media reale, e quindi le deviazioni al quadrato attorno alla media del campione sottostimano sistematicamente le deviazioni al quadrato attorno alla media vera.

S2n

S2=1ni=1n(XiX¯)2=1ni=1n(Xi22X¯Xi+X¯2)=1n(i=1nXi22X¯i=1nXi+nX¯2)=1n(i=1nXi22nX¯2+nX¯2)=1n(i=1nXi2nX¯2)=1ni=1nXi2X¯2.

Presa dei rendimenti attesi:

E(S2)=1ni=1nE(Xi2)E(X¯2)=1ni=1n(μ2+σ2)(μ2+σ2n)=(μ2+σ2)(μ2+σ2n)=σ2σ2n=n1nσ2

σ2n1


Grazie per la prova!
aggiornamento

0

Generalmente l'uso di "n" nel denominatore fornisce valori più piccoli rispetto alla varianza della popolazione, che è ciò che vogliamo stimare. Ciò accade soprattutto se vengono prelevati piccoli campioni. Nel linguaggio delle statistiche, diciamo che la varianza del campione fornisce una stima "distorta" della varianza della popolazione e deve essere resa "imparziale".

Se stai cercando una spiegazione intuitiva, dovresti far capire ai tuoi studenti il ​​motivo per se stessi prendendo campioni! Guarda questo, risponde esattamente alla tua domanda.

https://www.youtube.com/watch?v=xslIhnquFoE


0

X¯=1ni=1nXiS2=1n1i=1n(XiX¯)2n1

Per rispondere a questa domanda, dobbiamo tornare alla definizione di uno stimatore imparziale. Uno stimatore imparziale è quello la cui aspettativa tende alla vera aspettativa. La media del campione è uno stimatore imparziale. Per capire perché:

E[X¯]=1ni=1nE[Xi]=nnμ=μ

Diamo un'occhiata alle aspettative della varianza del campione,

S2=1n1i=1n(Xi2)nX¯2

E[S2]=1n1(nE[(Xi2)]nE[X¯2]).

X¯E[X¯2]n1

E[S2]=1n1(n(μ2+σ2)n(μ2+Var(X¯))).
Var(X¯)=Var(1ni=1nXi)=i=1n1n2Var(Xi)=σ2n

E[S2]=1n1(n(μ2+σ2)n(μ2+σ2/n)).=(n1)σ2n1=σ2

nn1n1S2


3
S

-1

μσ2nμ

σ2(n+1n1),

2n

La distribuzione T di Student generalizzata ha tre parametri e utilizza tutte e tre le tue statistiche. Se decidi di fornire alcune informazioni, puoi approssimare ulteriormente i tuoi dati usando una distribuzione normale a due parametri come descritto nella tua domanda.

Da un punto di vista bayesiano, puoi immaginare che l'incertezza negli iperparametri del modello (distribuzioni sulla media e sulla varianza) fa sì che la varianza del predittore posteriore sia maggiore della varianza della popolazione.


-4

Mio Dio, sta diventando complicato! Ho pensato che la risposta semplice fosse ... se hai tutti i punti dati che puoi usare "n" ma se hai un "campione" allora, supponendo che sia un campione casuale, hai più punti campione all'interno della deviazione standard che dall'esterno (la definizione di deviazione standard). Non hai abbastanza dati all'esterno per assicurarti di ottenere tutti i punti dati di cui hai bisogno in modo casuale. L'n-1 aiuta ad espandersi verso la deviazione standard "reale".


3
n1n2
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.