Esempio di distribuzione in cui è necessaria una grande dimensione del campione per il teorema del limite centrale


19

Alcuni libri affermano che una dimensione del campione di dimensione 30 o superiore è necessaria affinché il teorema del limite centrale fornisca una buona approssimazione per . X¯

So che questo non è abbastanza per tutte le distribuzioni.

Vorrei vedere alcuni esempi di distribuzioni in cui anche con una grande dimensione del campione (forse 100, o 1000 o superiore), la distribuzione della media del campione è ancora abbastanza distorta.

So di aver visto tali esempi prima, ma non ricordo dove e non riesco a trovarli.


5
Considera una distribuzione gamma con parametro shape . Prendi la scala come 1 (non importa). Diciamo che si consideri come solo "sufficientemente normale". Quindi una distribuzione per la quale è necessario che 1000 osservazioni siano sufficientemente normali ha una distribuzione . Gamma ( α 0 , 1 )αGamma(α0,1)Gamma(α0/1000,1)
Glen_b -Restate Monica

1
@Glen_b, perché non farlo diventare una risposta ufficiale e svilupparla un po '?
gung - Ripristina Monica

4
Qualsiasi distribuzione sufficientemente contaminata funzionerà, seguendo le stesse linee dell'esempio di @ Glen_b. Ad esempio , quando la distribuzione sottostante è una miscela di un normale (0,1) e un normale (valore enorme, 1), con quest'ultimo con solo una minima probabilità di apparire, allora accadono cose interessanti: (1) il più delle volte , la contaminazione non appare e non vi sono prove di asimmetria; ma (2) a volte appare la contaminazione e l'asimmetria nel campione è enorme. La distribuzione della media del campione sarà altamente distorta, indipendentemente dal fatto che il bootstrap ( ad es. ) Di solito non lo rilevi.
whuber

1
L'esempio di @ whuber è istruttivo, dimostrando che il teorema del limite centrale può, in teoria, essere arbitrariamente fuorviante. In esperimenti pratici, suppongo che ci si debba chiedere se potrebbe esserci qualche effetto enorme che si verifica molto raramente e applicare il risultato teorico con un po 'di circospezione.
David Epstein,

Risposte:


19

Alcuni libri affermano che una dimensione del campione di dimensione 30 o superiore è necessaria affinché il teorema del limite centrale fornisca una buona approssimazione per .X¯

Questa regola empirica comune è praticamente completamente inutile. Esistono distribuzioni non normali per le quali n = 2 andrà bene e distribuzioni non normali per le quali molto più grande è insufficiente, quindi senza una limitazione esplicita delle circostanze, la regola è fuorviante. In ogni caso, anche se fosse un po 'vero, il richiesto varierebbe a seconda di quello che stavi facendo. Spesso si ottengono buone approssimazioni vicino al centro della distribuzione con una piccola , ma è necessaria una molto più grande per ottenere un'approssimazione decente nella coda.n n nnnnn

Modifica: consulta le risposte a questa domanda per numerose opinioni apparentemente unanimi su tale questione e alcuni buoni collegamenti. Tuttavia, non affronterò il problema, poiché lo capisci già chiaramente.

Voglio vedere alcuni esempi di distribuzioni in cui anche con una grande dimensione del campione (forse 100 o 1000 o superiore), la distribuzione della media del campione è ancora abbastanza distorta.

Gli esempi sono relativamente facili da costruire; un modo semplice è trovare una distribuzione infinitamente divisibile non normale e dividerla. Se ne hai uno che si avvicina al normale quando lo fai in media o lo riassumi, inizia dal limite del 'vicino al normale' e dividilo quanto vuoi. Quindi per esempio:

Considera una distribuzione Gamma con parametro di forma . Prendi la scala come 1 (la scala non ha importanza). Supponiamo che tu consideri come "sufficientemente normale". Quindi una distribuzione per la quale è necessario ottenere 1000 osservazioni sufficientemente normali ha una distribuzione . Gamma ( α 0 , 1 ) Gamma ( α 0 / 1000 , 1 )αGamma(α0,1)Gamma(α0/1000,1)

Quindi se ritieni che un Gamma con sia semplicemente 'abbastanza normale' -α=20

Gamma (20) pdf

Quindi dividi per 1000, per ottenere :α = 0,02α=20α=0.02

Gamma (0,02) pdf

La media di 1000 di questi avrà la forma del primo pdf (ma non la sua scala).

Se invece scegli una distribuzione infinitamente divisibile che non si avvicina al normale, come ad esempio il Cauchy, allora potrebbe non esserci una dimensione del campione a cui i mezzi del campione hanno distribuzioni approssimativamente normali (o, in alcuni casi, potrebbero comunque avvicinarsi alla normalità, ma non hai un effetto per l'errore standard).σ/n

Il punto di @ whuber sulle distribuzioni contaminate è ottimo; potrebbe essere utile provare qualche simulazione con quel caso e vedere come si comportano le cose in molti di questi esempi.


12

Oltre alle molte grandi risposte fornite qui, Rand Wilcox ha pubblicato eccellenti articoli sull'argomento e ha dimostrato che il nostro controllo tipico per l'adeguatezza dell'approssimazione normale è abbastanza fuorviante (e sottovaluta la dimensione del campione necessaria). Egli sottolinea in modo eccellente che la media può essere approssimativamente normale ma che è solo metà della storia quando non conosciamo . Quando è sconosciuto, in genere utilizziamo la distribuzione per test e limiti di confidenza. La varianza del campione può essere molto, molto lontana da una ridimensionata e il rapporto risultante potrebbe non assomigliare ad una distribuzione quandoσ t χ 2 t t n = 30 s 2 ˉ Xσσtχ2ttn=30. In parole povere, la non normalità rovina più di quanto non rovini .S2X¯


2
Questo è un buon punto da sottolineare; spesso non è in realtà il mezzo con cui le persone hanno a che fare, ma una sua funzione e altre cose. Tuttavia, non solo può essere incasinato, ma perdi anche l'indipendenza di numeratore e denominatore e ciò può avere effetti sorprendenti nelle code. S2
Glen_b -Restate Monica

9

Potresti trovare utile questo documento (o almeno interessante):

http://www.umass.edu/remp/Papers/Smith&Wells_NERA06.pdf

I ricercatori di UMass hanno effettivamente condotto uno studio simile a quello che stai chiedendo. A quale dimensione del campione determinati dati distribuiti seguono una distribuzione normale dovuta a CLT? Apparentemente molti dati raccolti per gli esperimenti di psicologia non sono distribuiti quasi ovunque, quindi la disciplina si basa abbastanza pesantemente sul CLT per fare qualsiasi deduzione sulle loro statistiche.

Prima hanno eseguito test su dati che erano uniformi, bimodali e una distribuzione normale. Utilizzando Kolmogorov-Smirnov, i ricercatori hanno testato quante distribuzioni sono state respinte per normalità a livello di .α=0.05

Table 2. Percentage of replications that departed normality based on the KS-test. 
 Sample Size 
           5   10   15   20   25  30 
Normal   100   95   70   65   60  35 
Uniform  100  100  100  100  100  95 
Bimodal  100  100  100   75   85  50

Stranamente, il 65% dei dati normalmente distribuiti sono stati respinti con una dimensione del campione di 20 e anche con una dimensione del campione del 30, il 35% è stato ancora rifiutato.

Hanno quindi testato diverse distribuzioni fortemente distorte create utilizzando il metodo di alimentazione di Fleishman:

Y=un'X+BX2+cX3+dX4

X rappresenta il valore ricavato dalla distribuzione normale mentre a, b, c e d sono costanti (si noti che a = -c).

Hanno eseguito i test con campioni di dimensioni fino a 300

Skew  Kurt   A      B      C       D 
1.75  3.75  -0.399  0.930  0.399  -0.036 
1.50  3.75  -0.221  0.866  0.221   0.027 
1.25  3.75  -0.161  0.819  0.161   0.049 
1.00  3.75  -0.119  0.789  0.119   0.062 

Hanno scoperto che ai massimi livelli di inclinazione e kurt (1,75 e 3,75) che le dimensioni del campione di 300 non producevano mezzi di campionamento che seguivano una distribuzione normale.

Sfortunatamente, non penso che sia esattamente quello che stai cercando, ma mi sono imbattuto in esso e l'ho trovato interessante e ho pensato che potresti farlo anche tu.


4
" Stranamente, il 65% dei dati normalmente distribuiti sono stati respinti con una dimensione del campione di 20 e anche con una dimensione del campione del 30, il 35% è stato ancora rifiutato. " - Sembra quindi che stiano usando il test in modo errato; come test di normalità su dati normali completamente specificati (che è lo scopo del test), se lo stanno usando correttamente, deve essere esatto .
Glen_b -Restate Monica

5
@Glen_b: ci sono più fonti di potenziale errore qui. Se leggi il documento, noterai che ciò che è elencato come "normale" qui è in realtà variate casuali normali con media 50 e deviazione standard di 10 arrotondata al numero intero più vicino . Quindi, in questo senso, il test utilizzato sta già utilizzando una distribuzione errata. In secondo luogo, ancora sembra di aver eseguito le prove in modo non corretto, come i miei tentativi di spettacolo replica che, per una media del campione utilizzando 20 tali osservazioni, la probabilità di rifiuto è di circa il 27%. (cont.)
cardinale il

5
(seguito) In terzo luogo, indipendentemente da quanto sopra, alcuni software potrebbero utilizzare la distribuzione asintotica e non quella effettiva, sebbene a dimensioni del campione di 10 K questo non dovrebbe importare troppo (se i legami non fossero stati indotti artificialmente sui dati). Infine, troviamo la seguente strana affermazione vicino alla fine di quel documento: Sfortunatamente, le proprietà del test KS in S-PLUS limitano il lavoro. I valori p per il presente studio sono stati tutti compilati a mano sulle repliche multiple. È necessario un programma per calcolare i valori p ed esprimere un giudizio su di essi rispetto al livello alfa scelto.
cardinale il

3
Ciao @Glen_b. Non credo che l'arrotondamento ridurrà il tasso di rifiuto qui perché credo che stessero testando la vera distribuzione normale standard usando i dati arrotondati (che è ciò che intendevo dicendo che il test ha usato una distribuzione errata). (Forse stavi invece pensando di usare il test KS su una distribuzione discreta.) La dimensione del campione per il test KS era 10000, non 20; hanno fatto 20 repliche alla dimensione del campione 10000 ciascuna per ottenere la tabella. Almeno, questa è stata la mia comprensione della descrizione dalla scrematura del documento.
cardinale il

3
@cardinal - hai ragione, ovviamente, quindi forse potrebbe essere la fonte di una parte sostanziale dei rifiuti a campioni di grandi dimensioni. Ri: " La dimensione del campione per il test KS era 10000, non 20 " ... ok, sembra sempre più strano. Uno è rimasto a chiedersi perché avrebbero pensato che una di quelle condizioni fosse di grande valore, piuttosto che dire il contrario.
Glen_b
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.