Quanto dovrebbe essere grande un campione per una determinata tecnica e parametri di stima?


12

Esiste una regola empirica o addirittura un modo per dire quanto dovrebbe essere grande un campione per stimare un modello con un determinato numero di parametri?

Quindi, per esempio, se voglio stimare una regressione dei minimi quadrati con 5 parametri, quanto dovrebbe essere grande il campione?

Importa quale tecnica di stima stai usando (ad es. Massima verosimiglianza, minimi quadrati, GMM) o quanti o quali test eseguirai? La variabilità del campione deve essere presa in considerazione al momento di prendere la decisione?

Risposte:


11

La banale risposta è che si preferiscono sempre più dati a meno dati.

Il problema delle piccole dimensioni del campione è chiaro. Nella regressione lineare (OLS) tecnicamente puoi adattare un modello come OLS dove n = k + 1 ma ne otterrai spazzatura, ad esempio errori standard molto grandi. C'è un ottimo articolo di Arthur Goldberger intitolato Micronumerocity su questo argomento che è sintetizzato nel capitolo 23 del suo libro A Course in Econometrics .

Un'euristica comune è che dovresti avere 20 osservazioni per ogni parametro che desideri stimare. È sempre un compromesso tra la dimensione degli errori standard (e quindi i test di significatività) e la dimensione del campione. Questo è uno dei motivi per cui alcuni di noi odiano i test di significatività in quanto è possibile ottenere un errore standard (relativamente) incredibilmente piccolo con un campione enorme e quindi trovare un significato statistico inutile su test ingenui come se un coefficiente di regressione è zero.

Sebbene la dimensione del campione sia importante, la qualità del campione è più importante, ad esempio se il campione è generalizzabile per la popolazione, si tratta di un campione casuale semplice o di qualche altra metodologia di campionamento appropriata (e se ne è tenuto conto durante l'analisi), c'è un errore di misurazione? , bias di risposta, bias di selezione, ecc.


3

Mi piace usare il ricampionamento: ripeto qualunque metodo ho usato con un sottocampione dei dati (diciamo 80% o addirittura il 50% del totale). In questo modo con molti sottocampioni diversi, ho un'idea di quanto siano affidabili le stime. Per molte procedure di stima questo può essere trasformato in una stima reale (che significa pubblicabile) dei tuoi errori.


2

Dovrebbe essere sempre abbastanza grande! ;)

Tutte le stime dei parametri presentano un'incertezza della stima, determinata dalla dimensione del campione. Se si esegue un'analisi di regressione, è utile ricordare a te stesso che la distribuzione Χ 2 è costruita dal set di dati di input. Se il tuo modello avesse 5 parametri e tu avessi 5 punti dati, saresti in grado di calcolare un solo punto della distribuzione Χ 2 . Dato che dovrai minimizzarlo, puoi solo scegliere quel punto come ipotesi per il minimo, ma dovresti assegnare infiniti errori ai tuoi parametri stimati. Avere più punti dati consentirebbe di mappare meglio lo spazio dei parametri, portando a una migliore stima del minimo della distribuzione Χ 2 e quindi a piccoli errori dello stimatore.

Utilizzeresti uno stimatore della massima verosimiglianza invece che la situazione sarebbe simile: più punti dati portano a una migliore stima del minimo.

Per quanto riguarda la varianza dei punti, dovresti modellare anche questo. Avere più punti dati renderebbe più evidente il raggruppamento di punti attorno al valore "vero" (a causa del Teorema del limite centrale) e il pericolo di interpretare una grande fluttuazione di probabilità poiché il valore reale per quel punto diminuisce. E come per qualsiasi altro parametro, la tua stima per la varianza dei punti diventerebbe più stabile più punti dati hai.


2

Ho sentito due regole pratiche al riguardo. Uno sostiene che fintanto che ci sono abbastanza osservazioni nel termine di errore per evocare il teorema del limite centrale, ad esempio 20 o 30, stai bene. L'altro sostiene che per ogni pendenza stimata si dovrebbero avere almeno 20 o 30 osservazioni. La differenza tra l'uso di 20 o 30 come numero obiettivo si basa su pensieri diversi riguardo a quando ci sono abbastanza osservazioni per evocare ragionevolmente il Teorema del limite centrale.


1
le due risposte sembrano troppo diverse per me. Uno dice 20-30, l'altro dice 20-30 volte pendenze. Quindi se hai 5 pendenze, una regola ti dice da 20 a 30, l'altra da 100 a 150 osservazioni. Non mi sembra giusto ...
Vivi,

1
Sono linee guida piuttosto diverse. Ho il sospetto che la disconnessione sia se pensi che il test del modello complessivo sia importante (la linea guida N inferiore) o il test delle singole pendenze che contano (la linea guida N superiore).
Russellpierce,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.