In che modo la distribuzione campionaria del campione significa approssimativa della popolazione?


16

Sto cercando di apprendere le statistiche perché trovo che sia così diffusa che mi proibisce di imparare alcune cose se non le capisco bene. Ho difficoltà a comprendere questa nozione di distribuzione campionaria dei mezzi di campionamento. Non riesco a capire come alcuni libri e siti lo abbiano spiegato. Penso di avere una comprensione, ma non sono sicuro che sia corretto. Di seguito è il mio tentativo di capirlo.

Quando parliamo di un fenomeno che assume una distribuzione normale, generalmente (non sempre) riguarda la popolazione.

Vogliamo utilizzare le statistiche inferenziali per prevedere alcune cose su alcune popolazioni, ma non abbiamo tutti i dati. Usiamo campionamenti casuali e ogni campione di dimensione n ha la stessa probabilità di essere selezionato.

Quindi prendiamo molti campioni, diciamo 100 e quindi la distribuzione dei mezzi di quei campioni sarà approssimativamente normale secondo il teorema del limite centrale. La media dei mezzi di campionamento approssima la media della popolazione.

Ora quello che non capisco sono molte volte che vedi "Un campione di 100 persone ..." Non avremmo bisogno di 10 o 100 campioni di 100 persone per approssimare la popolazione della media? O è possibile che possiamo prelevare un singolo campione abbastanza grande, diciamo 1000 e poi diciamo che la media si avvicina alla media della popolazione? O prendiamo un campione di 1000 persone e quindi prendiamo 100 campioni casuali di 100 persone in ciascun campione da quelle 1000 persone originali che abbiamo preso e quindi lo usiamo come nostra approssimazione?

Il prelievo di un campione sufficientemente ampio per approssimare la media (quasi) funziona sempre? La popolazione deve anche essere normale affinché questo funzioni?

Risposte:


9

Penso che potresti confondere la distribuzione campionaria attesa di una media (che calcoleremmo sulla base di un singolo campione) con il processo (solitamente ipotetico) di simulazione di ciò che accadrebbe se ripetessimo ripetutamente la stessa popolazione più volte.

Per ogni data dimensione del campione (anche n = 2), diremmo che la media del campione (dalle due persone) stima la media della popolazione. Ma l'accuratezza della stima - vale a dire, quanto è stato buono un lavoro fatto per stimare la media della popolazione in base ai dati del nostro campione, come riflesso dall'errore standard della media - sarà più scadente che se avessimo un 20 o 200 persone nel nostro campione. Ciò è relativamente intuitivo (campioni più grandi offrono una migliore precisione di stima).

Useremmo quindi l'errore standard per calcolare un intervallo di confidenza, che (in questo caso) si basa sulla distribuzione normale (probabilmente utilizzeremmo la distribuzione t in piccoli campioni poiché la deviazione standard della popolazione è spesso sottovalutata in un piccolo campione, che porta a errori standard eccessivamente ottimistici.)

In risposta alla tua ultima domanda, no non sempre abbiamo bisogno di una popolazione normalmente distribuita per applicare questi metodi di stima - il teorema del limite centrale indica che la distribuzione campionaria di una media (stimata, ancora una volta, da un singolo campione) tenderà a seguire una distribuzione normale anche quando la popolazione sottostante ha una distribuzione non normale. Questo di solito è appropriato per campioni di dimensioni "maggiori".

Detto questo, quando hai una popolazione non Normale da cui stai campionando, la media potrebbe non essere una statistica riassuntiva appropriata, anche se la distribuzione campionaria per quella media potrebbe essere considerata affidabile.


quindi sono essenzialmente troppo impaziente di capire questa base teorica di come funzionano alcune di queste cose? La cosa davvero interessante qui è l'intervallo di confidenza? In altre parole, se volessi pubblicare uno studio su diciamo la quantità di ore in cui l'adulto medio negli Stati Uniti dorme, e prendo un campione di 5.000 e il mio intervallo di confidenza è del 99,9% la media è tra 6,46 e 6,54 quindi posso andare e pubblicherò il mio studio dicendo "con fiducia" che la media degli adulti negli Stati Uniti dorme 6,5 ore?
mergesort,

2
Dove hai detto: " dicendo" con fiducia "che la media degli adulti negli Stati Uniti dorme 6,5 ore ". Bene, no, puoi essere abbastanza sicuro che in realtà non siano in media 6,5 ​​ore. Puoi solo essere sicuro che è abbastanza vicino a 6,5 ​​ore, oppure puoi essere sicuro che sono '6,5 ore ai 5 minuti più vicini', o qualcosa del genere. Solo gli intervalli avranno un certo livello di confidenza associato ad essi.
Glen_b

1
@Glen_b arriva al nocciolo della questione - non possiamo mai dire che siamo sicuri di aver stimato un valore della popolazione esattamente giusto, ma piuttosto che abbiamo qualche idea sull'accuratezza del nostro processo di stima.
James Stanley,

@angrymonkey Penso che sia ancora utile ottenere i concetti alla base dell'approccio (simulato) di campionamento ripetuto. Inoltre, per stimare i mezzi non è necessario avere "enormi" dimensioni del campione - la formula dell'errore standard di una media è sample std deviation / square root(n)- la radice quadrata di n parte ci dice che otteniamo rendimenti decrescenti sull'accuratezza della stima per incrementi fissi come dimensione del campione diventa più grande (ad es. spostando da 10 a 20 persone in un campione migliora l'accuratezza della stima più che passando da 210 a 220 persone.)
James Stanley

ottimo ... grazie mille per l'aiuto. quindi un CI ci consente di dire che sono sicuro al 95% che la persona media dorme tra le 6.45 e le 6.56 ore a notte? allora perché alcuni articoli fanno queste affermazioni definitive come la persona media guarda 4,5 ore di tv al giorno? sicuramente l'intervallo di confidenza è qualcosa del 95% 4,43 e 4,56
fusione

10
  • Se la distribuzione originale è normale, anche la media del campione sarà normale, con varianza , dove è la dimensione del campione. Man mano che aumenta, la varianza della distribuzione media si riduce, quindi nel limite la media del campione tende al valore della media della popolazione.σ2/nnn
  • Se prendi diversi campioni indipendenti, ogni media del campione sarà normale e la media dei mezzi sarà normale e tenderà alla media vera.
  • Se i tuoi campioni provengono veramente dalla stessa distribuzione (ad es. 100 campioni da 10 ciascuno), farai le stesse inferenze come se prendessi un campione grande di 1000. (Ma nel mondo reale, i campioni distinti probabilmente differiscono in modo che uno non può essere ignorato, vedere "progettazione di blocchi randomizzati".)
  • Se i dati non sono normali, ma da una distribuzione che ha una varianza finita, il teorema del limite centrale implica che tutte le affermazioni fatte sopra siano approssimativamente vere, nel senso che la distribuzione limitante sarà normale. Più grande è , il più vicino alla normalità si sarà.n
  • Se si prendono 100 campioni da 10 ciascuno, i mezzi di campionamento avranno una distribuzione che è più normale rispetto ai dati originali, ma meno normale della distribuzione della media complessiva.
  • Fare un grande campione ti avvicina anche alla normalità.
  • Se si desidera stimare la media della popolazione, non fa alcuna differenza (in teoria) se si preleva un grande campione di 1000 o 100 campioni di 10.
  • Ma in pratica, le persone della teoria del campionamento possono dividere il campione per ragioni di raggruppamento, stratificazione e altri problemi. Quindi tengono conto dello schema di campionamento durante la stima. Ma questo è davvero importante per un'altra domanda.

nella maggior parte dei libri di testo, illustrano la distribuzione campionaria dei mezzi di campionamento. Questo in sostanza ti dice: "Ehi guarda, se fai molti campioni, tende ad essere normale e approssimerà la media della popolazione". Poi ti dicono che se prendi campioni abbastanza grandi, puoi prendere solo uno. La distribuzione campionaria della media del campione dovrebbe farti credere di poter prelevare un campione di grandi dimensioni? In altre parole, qual è lo scopo di capirlo? È solo per aiutarti a cogliere l'intuizione dietro il prelievo di un campione di grandi dimensioni? ignorando l'idea di assaggiare il theo
mergesort il

Penso che @ "James Stanley" risponda molto bene. In ogni caso reale, prendi un campione, calcoli la media del campione e questa è la tua stima.
Placidia,

1

La distribuzione campionaria della media è la distribuzione di TUTTI i campioni di una determinata dimensione. La media della dist campionatura è uguale alla media della popolazione. Quando parliamo di campionare dist di media per campioni di una determinata dimensione, non stiamo parlando di un campione o addirittura di un migliaio di campioni, ma di tutti i campioni.


0

La dist di campionamento della media non ha nulla a che fare con gli intervalli di confidenza. Questo è un altro concetto. Per la dist di campionamento la popolazione può essere normale o non normale a) Se pop è normale, la dist di campionamento della media sarà normale per qualsiasi dimensione del campione. b) Se il pop non è normale, 1) la distanza di campionamento della media NON PUO 'essere considerata normale, a meno che la dimensione del campione non sia 30 o più. Quindi il Teorema del limite centrale ci dice che la dist di campionamento può essere considerata normale.

Parli di predire. Anche la previsione non ha nulla a che fare con questo. Stai inserendo troppo nella dist campionaria. La dist campionatura è semplicemente Tutti i campioni e quindi viene presa la media. E media di tutti questi campioni, mu sub x bar, uguale a media di popolazione, mu e dev standard di campionamento dist, sigma sub x bar = sigma diviso per radice quadrata di n. (Non parleremo del fattore di correzione pop finito. Prendi il tuo stat per il valore nominale. Non leggere troppo in un concetto. Il pugno capisce il concetto di base.

PS La dist di campionamento della media non ha nulla a che fare con abput pr


Mi chiedo se questa risposta possa essere combinata con la tua prima risposta, anziché essere inserita come un'altra risposta. Di solito preferiamo che tu abbia 1 risposta per thread. (Ci sono eccezioni, però.) Puoi aggiungere materiale a una risposta esistente, o apportare modifiche, facendo clic sulla "modifica" grigia in basso a sinistra.
gung - Ripristina Monica

0

Ho pensato a problemi relativi ai big data e ho esaminato alcuni di questi post questa mattina. Non penso che questo sia un problema banale, per quanto riguarda la differenza tra l'analisi dei dati 1000 come un set rispetto all'analisi di 10 set di 100. In teoria , se l'ipotesi nulla è vera che i dati sono iid, non fa differenza. Tuttavia, il clustering e i pattern nei dati non vengono affatto affrontati se si prende semplicemente la media dei 1000 dati e si cita la media stimata e l'errore standard associato.

La conclusione a cui sono giunto, guardando alcune pagine su stackexchange e wikipedia, è che i big data permettono di vedere l' ovvio . Se ci sono caratteristiche interessanti nell'intera popolazione, un set di dati di grandi dimensioni li mostrerebbe chiaramente come giorno. Quindi, se avessi un set di dati molto grande, che potrei guardare visivamente, non salterei dentro e prendere misure di sintesi brevi senza prima cercare funzionalità molto ovvie. Fin dalle prime lezioni sull'inferenza statistica mi è stato insegnato a guardare i grafici e le visualizzazioni dei dati come primo passaggio. Non posso sottolineare abbastanza. Se il set di dati è troppo grande per essere visualizzato su uno schermo da un essere umano, dovrebbe essere sottoposto a un sottocampionamento con una risoluzione leggibile dall'uomo.


Ti preghiamo di non firmare i tuoi post: ecco a cosa serve il nome utente in basso a destra.
Glen_b -Restate Monica il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.