Il CLT (almeno in alcune delle sue varie forme) ci dice che nel limite come distribuzione di una singola media campione standardizzata ( ) converge in una distribuzione normale (in alcune condizioni).n → ∞X¯- μσ/ n√
Il CLT non ci dice cosa succede a o .n = 50n = 50 , 000
Ma nel tentativo di motivare il CLT, in particolare quando non viene offerta alcuna prova del CLT, alcune persone fanno affidamento sulla distribuzione campionaria di per campioni finiti e mostrano che, quando vengono prelevati campioni più grandi, la distribuzione campionaria si avvicina al normale.X¯
A rigor di termini questo non sta dimostrando il CLT, è più vicino a dimostrare il teorema di Berry-Esseen, dal momento che dimostra qualcosa sulla velocità con cui arriva l'approccio alla normalità - ma che a sua volta ci porterebbe al CLT, quindi serve abbastanza bene come motivazione (e in effetti, spesso qualcosa come il Berry-Esseen si avvicina comunque a ciò che le persone vogliono effettivamente usare in campioni finiti, quindi in qualche modo la motivazione può essere più utile nella pratica rispetto al teorema del limite centrale stesso) .
la distribuzione di questi mezzi di campionamento sarebbe normale.
Bene, no, sarebbero non normali ma in pratica sarebbero molto vicini alla norma (le altezze sono in qualche modo distorte ma non molto inclinate).
[Notare ancora che il CLT non ci dice davvero nulla sul comportamento dei mezzi di campionamento per ; questo è ciò a cui stavo arrivando con la mia precedente discussione su Berry-Esseen, che tratta di quanto lontano da un normale cdf la funzione di distribuzione di mezzi standardizzati possa essere per campioni finiti]n = 50
Il caso del mondo reale a cui sto pensando è fare statistiche su un set di dati di 50.000 utenti di Twitter. Quel set di dati ovviamente non è campioni ripetuti, è solo un grande campione di 50.000.
Per molte distribuzioni, una media campionaria di 50.000 articoli sarebbe molto vicina a una distribuzione normale - ma non è garantita, anche a n = 50.000 che avrai molto vicino a una distribuzione normale (se la distribuzione dei singoli articoli è sufficientemente inclinato, ad esempio, la distribuzione dei mezzi di campionamento può essere ancora abbastanza inclinata per rendere insostenibile un'approssimazione normale).
(Il teorema di Berry-Esseen ci porterebbe ad anticipare che si potrebbe verificare esattamente quel problema - e in modo dimostrabile, sì. È facile fornire esempi a cui si applica il CLT ma per i quali n = 50.000 non è un campione abbastanza grande per il campione standardizzato significa essere vicino alla normalità.)