Qual è la differenza tra N e N-1 nel calcolo della varianza della popolazione?


50

Non ho capito perché ci sono Ne N-1nel calcolo della varianza della popolazione. Quando usiamo Ne quando usiamo N-1?

inserisci qui la descrizione dell'immagine
Clicca qui per una versione più grande

Dice che quando la popolazione è molto grande non c'è differenza tra N e N-1 ma non dice perché all'inizio c'è N-1.

Modifica: per favore non confondere con ne n-1quali sono utilizzati nella stima.

Edit2: non sto parlando di stima della popolazione.


5
Puoi trovare una risposta qui: stats.stackexchange.com/questions/16008/… . Fondamentalmente, dovresti usare N-1 quando stimhi una varianza e N quando la calcoli esattamente.
Ocram,

@ocram, per quanto ne so quando stimiamo una varianza usiamo n o n-1.
ilhan,

Se vuoi che il tuo stimatore sia imparziale, allora dovresti usare n-1. Nota che quando n è grande, questo non è un problema.
Ocram,

2
N1N11/Ny
StasK

2
Questo in realtà non si aggiunge alle altre risposte. Che diversi divisori forniscano risposte diverse, o anche che la differenza diminuisca con N, non è in discussione. La domanda è quando e perché usare entrambi i divisori.
Nick Cox,

Risposte:


26

Nn(N1)/N=1(1/N)12/N117/Nexp(1/N)

(n1)/nn11/N

NN

NN1NNn


24

Invece di andare in matematica, proverò a dirlo con parole semplici. Se hai l'intera popolazione a tua disposizione, la sua varianza ( varianza di popolazione ) viene calcolata con il denominatore N. Allo stesso modo, se hai solo un campione e vuoi calcolare la varianza di questo campione , usi il denominatore N(n del campione, in questo caso). In entrambi i casi, nota, non stimare nulla: la media che hai misurato è la vera media e la varianza calcolata da quella media è la vera varianza.

Ora, hai solo un campione e vuoi dedurre circa la media sconosciuta e la varianza nella popolazione. In altre parole, vuoi delle stime . Prendi la media del tuo campione per la stima della media della popolazione (perché il tuo campione è rappresentativo), OK. Per ottenere una stima della varianza della popolazione, devi far finta che quella media sia davvero la media della popolazione e quindi non dipende più dal tuo campione da quando lo hai calcolato. Per "dimostrare" che ora lo prendi come fisso, riservi una (qualsiasi) osservazione dal tuo campione per "supportare" il valore della media: qualunque sia il tuo campione potrebbe essere accaduto, un'osservazione riservata potrebbe sempre portare la media al valore che ' ho ottenuto e che ritengono insensibile alle contingenze di campionamento. Un'osservazione riservata è "-1"N-1 nella stima della varianza informatica.

Immagina di sapere in qualche modo la vera popolazione, ma desideri stimare la varianza dal campione. Quindi sostituirai la media vera nella formula con la varianza e applicherai il denominatore N: qui non è necessario "-1" poiché conosci la media vera, non l'hai stimata da questo stesso campione.


Ma la mia domanda non ha nulla a che fare con la stima. Si tratta di calcolare la varianza della popolazione; con N e N-1. Non sto parlando di n e n-1.
ilhan,

1
@ilhan, nella mia risposta, ho usato Nsia N che n. Nè una dimensione di una totalità a portata di mano, popolazione o campione. Per calcolare la varianza della popolazione , è necessario disporre della popolazione a disposizione. Se si dispone solo di un campione, è possibile calcolare la varianza di questo campione o calcolare la varianza della stima della popolazione . Nessun altro modo.
ttnphns,

Ho informazioni complete sulla mia popolazione; tutti i valori sono noti. Non mi interessa la stima.
ilhan,

1
Se hai la tua popolazione, allora usare N. N-1 sarebbe illogico da usare.
ttnphns,

1
@ilhan - Impossibile commentare direttamente il tuo commento al post di ttnphns, ma ecco una spiegazione di ciò che vedi nel libro e di come dovresti dedurlo. Il simbolo 'S' quando usato per implicare la varianza si riferisce sempre alla varianza del campione. La lettera greca sigma è usata per riferirsi alla varianza della popolazione. Questo è il motivo per cui vedi il libro menzionare S = N * sigma / (N - 1)
Arvind

9

Generalmente, quando si ha solo una frazione della popolazione, cioè un campione, si dovrebbe dividere per n-1. C'è una buona ragione per farlo, sappiamo che la varianza del campione, che moltiplica la deviazione quadrata media dalla media del campione per (n − 1) / n, è uno stimatore imparziale della varianza della popolazione.

Puoi trovare una prova che lo stimatore della varianza del campione è imparziale qui: https://economictheoryblog.com/2012/06/28/latexlatexs2/

Inoltre, se si dovesse applicare lo stimatore della varianza della popolazione, ovvero la versione dello stimatore della varianza che divide per n, su un campione invece della popolazione, la stima ottenuta sarebbe distorta.


Questo sembra rispondere a una domanda diversa riguardante la stima della varianza della popolazione. Sembra circolare: questa risposta non è basata sull'assunzione di una convenzione specifica per la definizione della varianza della popolazione?
whuber

7

In passato c'è stato un argomento secondo cui dovresti usare N per una varianza non inferenziale, ma non lo consiglierei più. Dovresti sempre usare N-1. Man mano che la dimensione del campione diminuisce, N-1 è una correzione abbastanza buona per il fatto che la varianza del campione diminuisce (è più probabile che esegua il campionamento vicino al picco della distribuzione --- vedi figura). Se la dimensione del campione è davvero grande, non importa alcuna quantità significativa.

Una spiegazione alternativa è che la popolazione è un costrutto teorico che è impossibile da raggiungere. Pertanto, usa sempre N-1 perché, qualunque cosa tu stia facendo, nella migliore delle ipotesi stai stimando la varianza della popolazione.

Inoltre, vedrai N-1 per le stime di varianza da qui in poi. Probabilmente non incontrerai mai questo problema ... tranne in un test in cui il tuo insegnante potrebbe chiederti di fare una distinzione tra inferenziale e misura di varianza non inferenziale. In tal caso, non utilizzare la risposta di whuber o la mia, fare riferimento alla risposta di ttnphns.

Figura 1

Nota, in questa figura la varianza dovrebbe essere vicina a 1. Guarda quanto varia con la dimensione del campione quando usi N per stimare la varianza. (questo è il "pregiudizio" riferito a altrove)


1
Per favore, dimmi perché N "non è più raccomandato" con la vera popolazione a portata di mano? La popolazione non è sempre un costrutto teorico. A volte il tuo campione è una popolazione in buona fede per te.
ttnphns,

1
ilhan, N può essere utilizzato per il campione o può essere utilizzato per la dimensione della popolazione, se presente. Nella maggior parte dei casi, la distinzione tra grande N e piccola n dipende dall'argomento. Ad esempio, n potrebbe essere il numero di casi in ciascuna condizione in un esperimento mentre N potrebbe essere il numero per l'esperimento. Sono entrambi campioni. Non esiste una regola globale.
Giovanni

1
ttnphns, dipende da cosa intendi per popolazione. Direi che se tutta la tua popolazione è così piccola che N-1 è importante, allora è discutibile se calcolare una deviazione quadrata media sia assolutamente remoto. Mostra tutti i valori, la loro forma e gamma. Inoltre, l'intera vecchia argomentazione secondo cui hai effettivamente N gradi di libertà se non stai facendo un'inferenza è discutibile. Ne hai perso uno quando hai calcolato la media, che era necessario per calcolare la varianza.
Giovanni

1
@Giovanni, se si calcola la media all'interno della popolazione, si afferma semplicemente il fatto relativo al parametro, quindi non si spende alcun grado di libertà. Se lo calcoli nel campione e vuoi dedurre sulla popolazione, allora ne spendi uno. Inoltre, posso avere una popolazione con N = 1. Con il denominatore N-1, sembra che non esistano parametri come varianza . Non ha senso.
ttnphns,

3
@ilhan Per favore, considera di aggiornare la tua domanda (come hai fatto tu) e punta alla versione aggiornata piuttosto che lasciare tali commenti non costruttivi. Tutto è discutibile, specialmente quando la domanda stessa non ha un certo contesto. Qui sembra che il problema stia nel definire cosa sia realmente una popolazione.
chl

4

La varianza della popolazione è la somma delle deviazioni al quadrato di tutti i valori nella popolazione divisa per il numero di valori nella popolazione. Quando stiamo stimando la varianza di una popolazione da un campione, tuttavia, incontriamo il problema che le deviazioni dei valori del campione dalla media del campione sono, in media, un po 'meno delle deviazioni di tali valori del campione dal ( sconosciuto) media della popolazione vera. Ciò si traduce in una varianza calcolata dal campione leggermente inferiore alla vera varianza della popolazione. L'uso di un divisore n-1 invece di n corregge tale sottostima.


@ Bunnenburg, se hai la risposta alla tua domanda. Per favore, chiariscimi ora, cosa hai? È una grande confusione anche per me.
Bilal Para,

per compensare quel poco meno varianza che otteniamo, perché non si può usare n-2, n-3, ecc.? perché n-1 in particolare? perché non una costante ... ???
Saravanabalagi Ramachandran,

@SaravanabalagiRamachandran La discrepanza varia con la dimensione del campione e quindi una costante non servirà. La correzione usando n-1 è più vicina funziona meglio delle altre che menzioni.
Michael Lew,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.