Alcuni libri affermano che una dimensione del campione di dimensione 30 o superiore è necessaria affinché il teorema del limite centrale fornisca una buona approssimazione per .X¯
Questa regola empirica comune è praticamente completamente inutile. Esistono distribuzioni non normali per le quali n = 2 andrà bene e distribuzioni non normali per le quali molto più grande è insufficiente, quindi senza una limitazione esplicita delle circostanze, la regola è fuorviante. In ogni caso, anche se fosse un po 'vero, il richiesto varierebbe a seconda di quello che stavi facendo. Spesso si ottengono buone approssimazioni vicino al centro della distribuzione con una piccola , ma è necessaria una molto più grande per ottenere un'approssimazione decente nella coda.n n nnnnn
Modifica: consulta le risposte a questa domanda per numerose opinioni apparentemente unanimi su tale questione e alcuni buoni collegamenti. Tuttavia, non affronterò il problema, poiché lo capisci già chiaramente.
Voglio vedere alcuni esempi di distribuzioni in cui anche con una grande dimensione del campione (forse 100 o 1000 o superiore), la distribuzione della media del campione è ancora abbastanza distorta.
Gli esempi sono relativamente facili da costruire; un modo semplice è trovare una distribuzione infinitamente divisibile non normale e dividerla. Se ne hai uno che si avvicina al normale quando lo fai in media o lo riassumi, inizia dal limite del 'vicino al normale' e dividilo quanto vuoi. Quindi per esempio:
Considera una distribuzione Gamma con parametro di forma . Prendi la scala come 1 (la scala non ha importanza). Supponiamo che tu consideri come "sufficientemente normale". Quindi una distribuzione per la quale è necessario ottenere 1000 osservazioni sufficientemente normali ha una distribuzione . Gamma ( α 0 , 1 ) Gamma ( α 0 / 1000 , 1 )αGamma ( α0, 1 )Gamma ( α0/ 1000,1)
Quindi se ritieni che un Gamma con sia semplicemente 'abbastanza normale' -α = 20

Quindi dividi per 1000, per ottenere :α = 0,02α = 20α = 0,02

La media di 1000 di questi avrà la forma del primo pdf (ma non la sua scala).
Se invece scegli una distribuzione infinitamente divisibile che non si avvicina al normale, come ad esempio il Cauchy, allora potrebbe non esserci una dimensione del campione a cui i mezzi del campione hanno distribuzioni approssimativamente normali (o, in alcuni casi, potrebbero comunque avvicinarsi alla normalità, ma non hai un effetto per l'errore standard).σ/ n--√
Il punto di @ whuber sulle distribuzioni contaminate è ottimo; potrebbe essere utile provare qualche simulazione con quel caso e vedere come si comportano le cose in molti di questi esempi.