Perché il teorema del limite centrale funziona con un singolo campione?


12

Mi è sempre stato insegnato che il CLT funziona quando hai ripetuto il campionamento, con ogni campione abbastanza grande. Ad esempio, immagina di avere un paese di 1.000.000 di cittadini. La mia comprensione del CLT è che anche se la distribuzione delle loro altezze non era normale, se prendevo 1000 campioni di 50 persone (cioè conduco 1000 sondaggi di 50 cittadini ciascuno), quindi ho calcolato la loro altezza media per ciascun campione, la distribuzione di questi campioni i mezzi sarebbero normali.

Tuttavia, non ho mai visto un caso reale in cui i ricercatori hanno prelevato campioni ripetuti. Invece, prendono un grande campione (cioè sondano 50.000 cittadini sulla loro altezza) e lavorano da quello.

Perché i libri statistici insegnano il campionamento ripetuto e nel mondo reale i ricercatori conducono solo un singolo campione?

Modifica: il caso del mondo reale a cui sto pensando è di fare statistiche su un set di dati di 50.000 utenti di Twitter. Quel set di dati ovviamente non è campioni ripetuti, è solo un grande campione di 50.000.


Prelevare un campione di 1000 da 50.000 equivale quasi a prelevare 1000 campioni singoli indipendentemente da 50.000. Più piccolo è il campione (o più grande l'universo), più si assomigliano.
Thomas Ahle,

Risposte:


14

Il CLT (almeno in alcune delle sue varie forme) ci dice che nel limite come distribuzione di una singola media campione standardizzata ( ) converge in una distribuzione normale (in alcune condizioni).nX¯-μσ/n

Il CLT non ci dice cosa succede a o .n=50n=50,000

Ma nel tentativo di motivare il CLT, in particolare quando non viene offerta alcuna prova del CLT, alcune persone fanno affidamento sulla distribuzione campionaria di per campioni finiti e mostrano che, quando vengono prelevati campioni più grandi, la distribuzione campionaria si avvicina al normale.X¯

A rigor di termini questo non sta dimostrando il CLT, è più vicino a dimostrare il teorema di Berry-Esseen, dal momento che dimostra qualcosa sulla velocità con cui arriva l'approccio alla normalità - ma che a sua volta ci porterebbe al CLT, quindi serve abbastanza bene come motivazione (e in effetti, spesso qualcosa come il Berry-Esseen si avvicina comunque a ciò che le persone vogliono effettivamente usare in campioni finiti, quindi in qualche modo la motivazione può essere più utile nella pratica rispetto al teorema del limite centrale stesso) .

la distribuzione di questi mezzi di campionamento sarebbe normale.

Bene, no, sarebbero non normali ma in pratica sarebbero molto vicini alla norma (le altezze sono in qualche modo distorte ma non molto inclinate).

[Notare ancora che il CLT non ci dice davvero nulla sul comportamento dei mezzi di campionamento per ; questo è ciò a cui stavo arrivando con la mia precedente discussione su Berry-Esseen, che tratta di quanto lontano da un normale cdf la funzione di distribuzione di mezzi standardizzati possa essere per campioni finiti]n=50

Il caso del mondo reale a cui sto pensando è fare statistiche su un set di dati di 50.000 utenti di Twitter. Quel set di dati ovviamente non è campioni ripetuti, è solo un grande campione di 50.000.

Per molte distribuzioni, una media campionaria di 50.000 articoli sarebbe molto vicina a una distribuzione normale - ma non è garantita, anche a n = 50.000 che avrai molto vicino a una distribuzione normale (se la distribuzione dei singoli articoli è sufficientemente inclinato, ad esempio, la distribuzione dei mezzi di campionamento può essere ancora abbastanza inclinata per rendere insostenibile un'approssimazione normale).

(Il teorema di Berry-Esseen ci porterebbe ad anticipare che si potrebbe verificare esattamente quel problema - e in modo dimostrabile, sì. È facile fornire esempi a cui si applica il CLT ma per i quali n = 50.000 non è un campione abbastanza grande per il campione standardizzato significa essere vicino alla normalità.)


Per verificare se 50.000 sono abbastanza grandi, si potrebbe fare una simulazione in R, ad esempio, giusto? Userei la media e la deviazione standard del campione, ma come mi assicurerei di simulare dalla stessa distribuzione del mio campione?
Amonet,

A rigor di termini, è necessario simulare dalla distribuzione della popolazione. Si potrebbe trattare la distribuzione del campione come una stima della distribuzione della popolazione (questo è simile a bootstrap) - ma questo non sarà sufficiente a tale scopo a. Ad esempio, considera di aver estratto un campione da una distribuzione di Cauchy e di ricampionarlo da quello con la sostituzione. (per campioni sempre più grandi), fino a quando la distribuzione dei mezzi ricampionati non appare "sufficientemente normale". Avrete sempre concludere che una certa dimensione del campione finito è sufficiente, ma in realtà non è mai sarebbe.
Glen_b -Restate Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.