Perché l'aumento della dimensione del campione riduce la varianza (campionamento)?


35

Grande immagine:

Sto cercando di capire come aumentare le dimensioni del campione aumenta la potenza di un esperimento. Le diapositive del mio docente spiegano questo con un quadro di 2 distribuzioni normali, una per l'ipotesi nulla e una per l'ipotesi alternativa e una soglia di decisione c tra di loro. Sostengono che l'aumento della dimensione del campione ridurrà la varianza e quindi causerà una kurtosi più elevata, riducendo l'area condivisa sotto le curve e quindi la probabilità di un errore di tipo II.

Piccola immagine:

Non capisco come una dimensione del campione più grande riduca la varianza.
Suppongo che calcoli solo la varianza del campione e lo usi come parametro in una distribuzione normale.

Provai:

  • googling , ma le risposte più accettate hanno 0 voti o sono solo esempi
  • pensiero : secondo la legge dei grandi numeri ogni valore dovrebbe eventualmente stabilizzarsi attorno al suo valore probabile in base alla normale distribuzione che assumiamo. E la varianza dovrebbe quindi convergere alla varianza della nostra presunta distribuzione normale. Ma qual è la varianza di quella distribuzione normale ed è un valore minimo, cioè possiamo essere sicuri che la nostra varianza del campione diminuisca a quel valore?

Il tuo esperimento mentale riguardava normalmente i dati distribuiti, ma si applica anche ai dati tratti da molte altre distribuzioni (come notato da @Aksakal, non tutti! Il Cauchy è un esempio comunemente citato di tale cattivo comportamento). Per i dati binomiali si discute di come la potenza e l'errore standard variano con la dimensione del campione su stats.stackexchange.com/q/87730/22228
Silverfish,

1
Dato che sei nuovo su CrossValidated, permettimi di sottolineare che se hai ricevuto una risposta soddisfacente, dovresti considerare di contrassegnarla come "accettata" facendo clic su un segno di spunta verde a sinistra. Ciò fornisce ulteriore reputazione per il risponditore e contrassegna la domanda come risolta.
ameba dice di reintegrare Monica il

Ci penso in questo modo: ogni nuovo punto ha informazioni uniche. I punti infiniti hanno abbastanza per fare una stima perfetta. Man mano che aggiungiamo sempre più nuovi punti campione, la differenza tra le informazioni di cui abbiamo bisogno per avere una stima perfetta e quelle che effettivamente abbiamo diventa sempre più piccola.
EngrStudent - Ripristina Monica il

Questa è la fonte della confusione: non è la varianza del campione che diminuisce, ma la varianza della varianza del campione. La varianza del campione è uno stimatore (quindi una variabile casuale). Se i tuoi dati provengono da una N normale (0, 5), la varianza del campione sarà prossima a 5. Quanto vicino? Dipende dalla varianza dello stimatore per la varianza del campione. Con 100 punti dati, potresti trovare qualcosa come 4.92. Con 1000, troverai qualcosa come 4.98. Con 10000, troverai 5.0001. Quindi aumenta la precisione delle tue misurazioni, non le tue misurazioni stesse.
Formica,

Risposte:


32

Le deviazioni standard delle medie sono inferiori alle deviazioni standard delle singole osservazioni. [Qui assumerò osservazioni indipendenti identicamente distribuite con varianza della popolazione finita; si può dire qualcosa di simile se si rilassano le prime due condizioni.]

È una conseguenza del semplice fatto che la deviazione standard della somma di due variabili casuali è inferiore alla somma delle deviazioni standard (può essere uguale solo quando le due variabili sono perfettamente correlate).

In effetti, quando hai a che fare con variabili casuali non correlate, possiamo dire qualcosa di più specifico: la varianza di una somma di variate è la somma delle loro varianze.

n

n

σX¯=σ/n

Quindi, quando aggiungi più dati, ottieni stime sempre più precise delle medie di gruppo. Un effetto simile si applica ai problemi di regressione.

Dato che possiamo ottenere stime più precise delle medie aumentando la dimensione del campione, siamo più facilmente in grado di distinguere i mezzi che sono vicini tra loro - anche se le distribuzioni si sovrappongono abbastanza, prendendo una grande dimensione del campione possiamo ancora stimare il loro popolazione significa abbastanza accuratamente per dire che non sono gli stessi.


8

La variabilità che si riduce quando N aumenta è la variabilità della media del campione, spesso espressa come errore standard. O, in altri termini, la certezza della veridicità della media del campione è in aumento.

Immagina di eseguire un esperimento in cui raccogli 3 uomini e 3 donne e misura le loro altezze. Quanto sei sicuro che le altezze medie di ciascun gruppo siano la vera media delle popolazioni separate di uomini e donne? Dovrei pensare che non ne saresti affatto sicuro. Potresti facilmente raccogliere nuovi campioni di 3 e trovare nuovi mezzi a diversi pollici dai primi. Alcuni degli esperimenti ripetuti come questo potrebbero persino comportare che le donne siano pronunciate più alte degli uomini perché i mezzi potrebbero variare così tanto. Con una N bassa non hai molta certezza nella media del campione e varia molto tra i campioni.

Ora immagina 10.000 osservazioni in ciascun gruppo. Sarà abbastanza difficile trovare nuovi campioni di 10.000 che hanno mezzi che differiscono molto l'uno dall'altro. Saranno molto meno variabili e sarai più sicuro della loro precisione.

σn

Ecco una piccola simulazione in R per dimostrare la relazione tra un errore standard e la deviazione standard dei mezzi di molte repliche dell'esperimento iniziale. In questo caso inizieremo con una media della popolazione di 100 e una deviazione standard di 15.

mu <- 100
s <- 50
n <- 5
nsim <- 10000 # number of simulations
# theoretical standard error
s / sqrt(n)
# simulation of experiment and the standard deviations of their means
y <- replicate( nsim, mean( rnorm(n, mu, s) ) )
sd(y)

Notare come la deviazione standard finale è vicina all'errore standard teorico. Giocando con la variabile n qui puoi vedere che la misura della variabilità diminuirà all'aumentare di n.

[A parte ciò, la curtosi nei grafici non sta realmente cambiando (supponendo che siano distribuzioni normali). Ridurre la varianza non cambia la curtosi ma la distribuzione sembrerà più stretta. L'unico modo per esaminare visivamente i cambiamenti della curtosi è mettere le distribuzioni sulla stessa scala.]


avevi ragione, più pensiero dovrebbe essere coinvolto da parte mia in futuro: P
j__

Due cose non sono del tutto chiare: (1) Le curve a campana di cui OP parla delle distribuzioni dei mezzi di campionamento? (2) Le dimensioni del campione sono considerate sia per la distribuzione della media dei campioni del gruppo di controllo sia per la distribuzione della media dei campioni del gruppo sperimentale?
Lenar Hoyt,

4

Se volessi sapere qual è il peso medio dei cittadini americani, nel caso ideale chiederesti immediatamente a tutti i cittadini di salire sulla bilancia e raccogliere i dati. Avresti una risposta esatta . Questo è molto difficile, quindi forse potresti convincere alcuni cittadini a fare un passo avanti, calcolare la media e farsi un'idea di quale sia la media della popolazione. Ti aspetti che la media del campione sia esattamente uguale alla media della popolazione? Spero di no.

Ora, saresti d'accordo sul fatto che se avessi sempre più persone, ad un certo punto ci avvicineremo alla media della popolazione? Dovremmo, vero? Alla fine il maggior numero di persone che possiamo ottenere è l'intera popolazione, e la sua media è ciò che stiamo cercando. Questa è l'intuizione.

Questo è stato un esperimento di pensiero idealizzato. In realtà, ci sono complicazioni. Ti do due.

  • Immagina che i dati provengano da una distribuzione di Cauchy . Puoi aumentare il tuo campione all'infinito, ma la varianza non diminuirà. Questa distribuzione non ha variazioni di popolazione. In effetti, a rigor di termini, non ha nemmeno una media campionaria. È triste. Sorprendentemente, questa distribuzione è abbastanza reale, si presenta qua e là in fisica.
  • Immagina di aver deciso di proseguire con il compito di determinare il peso medio dei cittadini americani. Quindi, prendi la tua bilancia e vai da casa a casa. Questo richiederà molti anni. Quando raccoglierai milioni di osservazioni, alcuni cittadini del tuo set di dati avranno cambiato molto il loro peso, alcuni sarebbero morti, ecc. Il punto è che aumentare la dimensione del campione in questo caso non ti aiuta.

1
Ho il sospetto che tu abbia inteso "peso medio" nella tua prima frase. Mi piace l'uso di un esperimento mentale. Un'altra complicazione può derivare dal tuo strumento di misurazione: le scale che si consumano possono presentare errori di parallasse o errori dell'utente che introducono altra variabilità.
Mark R

1

Credo che la legge dei grandi numeri spieghi perché la varianza (errore standard) diminuisce quando aumenta la dimensione del campione. L'articolo di Wikipedia su questo dice:

Secondo la legge, la media dei risultati ottenuti da un gran numero di prove dovrebbe essere vicina al valore atteso e tenderà ad avvicinarsi man mano che vengono eseguite più prove.

In termini di Teorema del limite centrale:

Quando si estrae un singolo campione casuale, maggiore è il campione, più la media del campione si avvicina alla media della popolazione (nella citazione sopra, si pensi al "numero di prove" come a "dimensione del campione", quindi ogni "prova" è un'osservazione ). Pertanto, quando si disegna un numero infinito di campioni casuali, la varianza della distribuzione di campionamento sarà inferiore quanto maggiore è la dimensione di ciascun campione.

In altre parole, la forma della campana sarà più stretta quando ogni campione è grande anziché piccolo, perché in questo modo ogni media del campione sarà più vicina al centro della campana.


0

All'aumentare della dimensione del campione, la varianza del campione (variazione tra le osservazioni) aumenta ma la varianza della media del campione (errore standard) diminuisce e quindi aumenta la precisione.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.