Quali riferimenti devono essere citati per supportare l'utilizzo di 30 come una dimensione del campione abbastanza grande?


41

Ho letto / sentito molte volte che la dimensione del campione di almeno 30 unità è considerata come "campione grande" (ipotesi di normalità dei mezzi di solito approssimativamente a causa del CLT, ...). Pertanto, nei miei esperimenti, di solito generi campioni di 30 unità. Potete per favore darmi qualche riferimento che dovrebbe essere citato quando si utilizza la dimensione del campione 30?


2
Senza riferimento al numero di parametri che provi a stimare, o equivalentemente al tipo di modello con cui stai lavorando, sembra piuttosto difficile darti una risposta chiara.
chl

2
L'accettazione di n = 30 come limite di campioni piccoli e grandi non è ben supportata da alcuna tecnica statistica.
Jibol,

Risposte:


37

La scelta di n = 30 per un confine tra campioni piccoli e grandi è solo una regola empirica. C'è un gran numero di libri che citano (circa) questo valore, ad esempio, Probabilità e inferenza statistica di Hogg e Tanis (7e) dicono "maggiore di 25 o 30".

Detto questo, la storia raccontata per me era che l'unica ragione per cui il 30 è stato considerato come un buon contorno è stato perché ha fatto per praticamente di Student t tavoli sul retro dei libri di testo per integrarsi bene in una sola pagina. Ciò, ei valori critici (tra la t di Student e la normale) sono disattivati ​​solo fino a circa 0,25, comunque, da df = 30 a df = infinito. Per il calcolo manuale la differenza non contava davvero.

Oggi è facile calcolare valori critici per ogni sorta di cose con 15 cifre decimali. Inoltre, abbiamo metodi di ricampionamento e permutazione per i quali non siamo nemmeno limitati alle distribuzioni parametriche della popolazione.

In pratica non faccio mai affidamento su n = 30. Traccia i dati. Sovrapponi una distribuzione normale, se vuoi. Valuta visivamente se un'approssimazione normale è appropriata (e chiedi se un'approssimazione è davvero necessaria). Se la generazione di campioni per la ricerca e un'approssimazione è obbligatoria, generare abbastanza dimensioni del campione per rendere l'approssimazione il più vicino possibile (o quanto più possibile computazionalmente computazionale).


13
Ecco una pagina su quanto è buona l'approssimazione normale della distribuzione t per n = 30. johndcook.com/normal_approx_to_t.html
John D. Cook

41

In realtà, il "numero magico" 30 è un errore. Vedi il delizioso documento di Jacob's Cohen, Le cose che ho imparato (finora) (Am. Psych. Dicembre 1990 45 # 12, pp 1304-1312) . Questo mito è il suo primo esempio di come "alcune cose che impari non sono così".

[O] ne dei miei colleghi dottorandi hanno intrapreso una tesi [con] un campione di soli 20 casi per gruppo. ... [L] ater ho scoperto ... che per un confronto della media di due gruppi indipendenti con per gruppo al livello santificato a due code , la probabilità che un effetto di medie dimensioni fosse etichettato altrettanto significativo per ... un test t era solo . Quindi, è stato approssimativamente un lancio di una moneta se uno avrebbe ottenuto un risultato significativo, anche se, in realtà, la dimensione dell'effetto era significativa. ... [Amico mio] ha finito con risultati non significativi, con i quali ha proceduto a demolire un importante ramo della teoria psicoanalitica.n=30.05.47


2
Bello riferimento - e posto sul rilevante. Grazie.
whuber

1
@whuber Ricordi quale carta era? Ormai il collegamento è interrotto. Forse questo psych.colorado.edu/~willcutt/pdfs/Cohen_1990.pdf , "Cose che ho imparato (finora)"? L'anno corrisponde a quello nell'URL del collegamento interrotto.
ameba dice Ripristina Monica il

1
@Amoeba Ho salvato questo documento quando l'ho letto, quindi posso confermare che quello che hai trovato è quello previsto. Ho aggiornato questa risposta per includere una citazione insieme al tuo link.
whuber

@Carlos Accioly L'ho aggiornato con il nuovo link poiché il precedente era rotto.
Akshay Bansal,

9

IMO, tutto dipende da cosa vuoi usare per il tuo campione. Due esempi "sciocchi" per illustrare cosa intendo: se è necessario stimare una media, 30 osservazioni sono più che sufficienti. Se è necessario stimare una regressione lineare con 100 predittori, 30 osservazioni non saranno abbastanza vicine.


9

Principalmente regola arbitraria arbitraria. Questa affermazione dipende da una serie di fattori per essere vera. Ad esempio sulla distribuzione dei dati. Se i dati provengono da un Cauchy per esempio, anche 30 ^ 30 osservazioni non sono sufficienti per stimare la media (in quel caso anche un numero infinito di osservazioni non sarebbe sufficiente per causare convergere). Questo numero (30) è anche falso se i valori che disegni non sono indipendenti l'uno dall'altro (di nuovo, potresti avere che non vi è alcuna convergenza, indipendentemente dalle dimensioni del campione).μ¯(n)

Più in generale, il CLT necessita essenzialmente di due pilastri per contenere:

  1. Che le variabili casuali siano indipendenti: puoi riordinare le tue osservazioni senza perdere alcuna informazione *.
  2. Che il camper provenga da una distribuzione con secondi momenti finiti: ciò significa che gli stimatori classici di media e sd tendono a convergere all'aumentare della dimensione del campione.

(Entrambe queste condizioni possono essere in qualche modo indebolite, ma le differenze sono in gran parte di natura teorica)


6
Il tuo esempio illustra il valore di statistiche affidabili. La mediana di esempio stima il parametro di posizione di un pozzo di distribuzione di Cauchy. Si potrebbe sostenere che il collegamento più debole nell'uso di un test t con 30 campioni è il test t, non i 30 campioni.
John D. Cook,

1
John:> "Si potrebbe sostenere che il collegamento più debole nell'uso di un test t con 30 campioni è il test t, non i 30 campioni". Molto vero, e anche il presupposto che i dati siano iid . Inoltre, la mediana è MLE per le variabili casuali distribuite di Cauchy (e quindi efficienti), ma in generale potrebbero essere necessarie più di 30 osservazioni.
user603,

1
Non tutte le versioni del CLT si basano sulla distribuzione identica e nemmeno sull'indipendenza. Quelli di base insegnati agli studenti universitari spesso lo fanno, ma ci sono versioni che non fanno entrambe le ipotesi, ad esempio il CLT di Lyapunov assume indipendenza ma non distribuzioni identiche, e la condizione di indipendenza può anche essere allentata, per esempio vedi qui . Anche questa cosa del "riordino" non è la stessa dell'indipendenza. Alcune forme di dipendenza non si basano sull'ordine.
Glen_b,

2
Una dimensione del campione di 50.000 non è sufficiente affinché il CLT funzioni abbastanza bene da calcolare un intervallo di confidenza per la media di una distribuzione normale del registro.
Frank Harrell,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.