Il numero 20 è magico?


12

Ho riferimenti che mi hanno consigliato di prendere in considerazione una dimensione del campione di almeno 20 per la distribuzione dei dati.

C'è senso in questo?

Grazie


3
In generale no, forse in situazioni specifiche. Hai i riferimenti e quali sono i tuoi obiettivi?
image_doctor,

1
Concordo con @image_doctor - non vi è alcun motivo generale per cui 20 osservazioni debbano essere considerate come un minimo; potrebbe essere il caso in circostanze molto particolari.
Glen_b

3
Un singolo valore funzionerà in alcuni casi pratici, come quando la distribuzione è nota (con certezza) come Poisson e l'osservazione è un grande conteggio. Ciò consente non solo di adeguare la distribuzione, ma anche di valutare il probabile errore nella stima del suo parametro.
whuber

1
Credo di aver letto anche che per le distribuzioni normali, 30 è la regola empirica. Mi sembra che fosse legato a quanto uno studente con i suoi 30 gradi di libertà sia vicino al normale. Ma è solo una regola empirica. Non è magico nello stesso senso in cui il valore di è. e
Wayne,

Risposte:


13

Gran parte di ciò dipende dalla distribuzione prevista e dalla domanda di ricerca. Come regola empirica, dovresti stare attento alle regole empiriche. Se si conosce la distribuzione prevista, eseguire alcune simulazioni di dimensioni diverse e determinare la frequenza con cui le simulazioni del campione riflettono la distribuzione effettiva. Ciò dovrebbe fornire alcune indicazioni sulla dimensione del campione finale richiesta.


+1 per evitare dichiarazioni estreme e dogmatiche.
whuber

1
+1 in parte dovuto a "Come regola empirica, dovresti stare attento alle regole empiriche".
Wolfgang,

7

z0.9750.50.5/1000=1.960.158=0.031

|skewness|n2n1=4.58,|kurtosis|n23n+3n1=18.05.

n=20

h=1.06σ^n1/5=0.58σ^

ms(s/m)(3+(s/m)2)202
whuber

1
Link obbligatorio alla "Sindrome di Power-of-Ten" nel contesto dell'uso di 1000 come dimensione del campione (nel contesto delle statistiche relative alla programmazione, ma si applica altrove): zedshaw.com/essays/programmer_stats.html
Gary S. Tessitore

1
@whuber, sei troppo intelligente, senza offesa. Molte persone calcolano l'asimmetria come il momento dei dati, non attraverso un'ipotesi parametrica come hai appena fatto. Ora, se dicessi "Supponiamo che tu stia adattando una distribuzione di Pearson per metodo dei momenti", allora questo argomento sarebbe rilevante?
StasK,

Sì, sarebbe rilevante in molti casi. Ho seguito il tuo suggerimento per adattarmi a una distribuzione lognormale usando il metodo dei momenti e ho ottenuto una grande asimmetria - nessuna sorpresa lì. Questo perché ho abbinato solo i primi due momenti, lasciando che il terzo fosse quello che poteva. Se dovessi seguire la stessa procedura con qualsiasi famiglia di distribuzione di due o meno parametri che consenta terzi momenti arbitrariamente grandi, penso che vedrei lo stesso fenomeno. Con la famiglia Pearson, che ha più di due parametri, probabilmente proveremmo ad abbinare l'asimmetria empirica, limitandone così il valore.
whuber

2

No. Non da remoto.

Pensaci in questo modo: se avessi uno spazio miliardario (umanità) e tirassi fuori 20 campioni usando qualunque metodo (20 persone) potresti usare le informazioni ottenute per capire ragionevolmente bene ogni persona sul pianeta? Non da remoto. Ci sono 100 miliardi di stelle nella galassia della Via Lattea. Scegliendone (casualmente) 20 puoi capire tutta l'astronomia galattica? Non c'è modo.

In uno spazio 1-d ci sono alcune euristiche, per lo più valide regole empiriche che possono aiutare, che descrivono quante misure vuoi prendere. Includono vari gradi di utilità e giustificazione, ma sono in qualche modo più ben difesi di "20". Includono "5 misurazioni per variabile nell'equazione di adattamento", "almeno 35 campioni di una funzione di densità gaussiana" e "almeno 300 campioni di una funzione binomiale". I veri statistici e non un secchione come me saranno in grado di associare particolari intervalli di confidenza e incertezze dai primi principi e senza una calcolatrice.

a3r3+a2r2+a1r+a0a1r+a0dr

Ricorda che "migliore" è un'idea insignificante senza avere una "misura di bontà". Qual è il percorso migliore? Se stai andando al tuo destino, forse estremamente lungo e piacevole. Se stai andando alla tua incoronazione, forse breve e magnifica. Se stai camminando attraverso il deserto, una bella ombra. Qual è il numero "migliore" di campioni? È così straordinariamente dipendente dal tuo problema che non si può iniziare a rispondere con autorità prima. Tutti loro? Quante ne puoi? Hanno solo un piccolo senso. Sì, è come essere parzialmente morto o incinta. Essere parzialmente insensati è una conseguenza di un problema molto poco definito.

Se stai cercando di prevedere con precisione il flusso d'aria su un aereo? Potresti aver bisogno di diversi milioni di misurazioni per entrare nel parco delle palle. Se vuoi sapere quanto sei alto, uno o due potrebbero fare il lavoro.

Ciò non fa emergere i punti importanti di "estensione dello spazio" e "campionamento in posizioni che minimizzano la varianza nelle stime dei parametri", ma la domanda suggeriva che una risposta più a livello di matricola sarebbe pertinente. Queste cose richiedono di conoscere meglio la natura del problema prima di poter essere implementate.

Nota: modificato per migliorare per suggerimenti.


1
Sembra che tu abbia letto "minimo" nella domanda come "massimo" o "sufficiente". Nulla di ciò che hai scritto sembra contraddire una regola empirica minima di 20.
whuber

2
@whuber, lavoro tra persone che pensano che le misurazioni extra siano costose e se fornisco loro un "numero minimo di campioni" non la considerano una disuguaglianza in cui il numero potenziale di campioni è maggiore di quello. Lo considerano il confine per un problema di ottimizzazione della riduzione al minimo dei costi e cercano di operare solo a quel valore. È un prodotto del mio ambiente.
EngrStudent,

1

Forse per il contesto in cui stai eseguendo i test t o ANOVAR - un contesto abbastanza comune nelle applicazioni statistiche di base - è circa la dimensione del campione di cui hai bisogno per ciascun gruppo al fine di essere in grado di avere molta fiducia nel fatto che la media di ciascun gruppo è approssimativamente normalmente distribuito (secondo il teorema del limite centrale) quando si può presumere che la distribuzione sia più o meno unimodale e non estremamente alta. Venti e non diciannove o ventuno perché è un numero tondo.


0

Controlla la potenza di Russ Lenth e la pagina delle dimensioni del campione per alcuni articoli sull'argomento (nella sezione Consigli al centro della pagina).

Il numero minimo di individui nel campione varia notevolmente in base alla dimensione della popolazione, al numero di dimensioni (se si dividono i dati in categorie) e alle misure (se si adottano misure continue sugli individui del campione) che si stanno assumendo, le dimensioni di il tuo universo, la tecnica di analisi che intendi utilizzare (questo è un punto molto importante: la tecnica è definita durante la pianificazione dello studio o durante la progettazione sperimentale , mai dopo) e la complessità dimostrata da studi precedenti.

E 20 non è abbastanza per qualsiasi ricerca seria al di fuori dei temi delle "malattie rare" e della "psicologia sperimentale" (la psicologia definita da Popper nel suo lavoro).

Perfezionare la risposta in base ai commenti seguenti:

E 20 non è sufficiente per qualsiasi ricerca seria al di fuori dei temi delle "malattie rare" e della "psicologia sperimentale" (la psicologia definita da Popper nel suo lavoro) che implica l'adattamento di una distribuzione di probabilità .

E no, non dovresti continuare ad avvelenare le persone per ottenere campioni di grandi dimensioni. I test di senso comune e sequenziali ti ordinano di interrompere.


3
Penso che sia troppo estremo dare una dichiarazione generale che un campione di 20 "non è sufficiente per qualsiasi ricerca seria". Ciò contraddice le tue precedenti affermazioni secondo cui la dimensione del campione appropriata varia a seconda dello scopo, della popolazione e così via. In alcuni casi è sufficiente un risultato di falsificazione per uccidere un'intera teoria.
whuber

1
Casi di studio e ricerca qualitativa possono andare bene con 1-5 partecipanti.
Behacad,

Ok, aggiungi "case study" e "focus group" all'elenco :) Questi sono inclusi in quello che ho detto Popper chiamato "psicologia sperimentale".
Lucas Gallindo,

4
Dovresti quindi aggiungere l'astronomia, la medicina, la biologia, la chimica, ... In altre parole, è altrettanto brutto affermare che 20 non è "abbastanza" come è affermare che è abbastanza buono. In realtà, probabilmente è peggio. Immagina una prova di sicurezza alimentare in cui i primi otto soggetti a cui è stato somministrato un integratore alimentare sono deceduti per effetti collaterali imprevisti. Sosterresti il ​​proseguimento dei test sulla base della tua dichiarazione "20 non è abbastanza"?
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.