Possiamo usare campioni bootstrap più piccoli del campione originale?


12

Voglio utilizzare il bootstrap per stimare gli intervalli di confidenza per i parametri stimati da un set di dati del pannello con N = 250 aziende e T = 50 mesi. La stima dei parametri è computazionalmente costosa (pochi giorni di calcolo) a causa dell'uso del filtraggio di Kalman e della complessa stima non lineare. Pertanto, prelevare (con la sostituzione) B (in centinaia o più) campioni di M = N = 250 ditte dal campione originale e stimare i parametri B volte è impossibile dal punto di vista computazionale, anche se questo è il metodo di base per il bootstrap.

Quindi sto considerando di usare una M più piccola (ad es. 10) per i campioni bootstrap (anziché la dimensione intera di N = 250), disegnata casualmente con la sostituzione da aziende originali, e quindi ridimensionare la matrice di covarianza stimata da bootstrap dei parametri del modello con (nell'esempio sopra di 1/25) per calcolare la matrice di covarianza per i parametri del modello stimati sull'intero campione.1NM

Gli intervalli di confidenza desiderati possono quindi essere approssimati in base al presupposto della normalità o quelli empirici per campioni più piccoli ridimensionati utilizzando una procedura simile (ad esempio ridimensionati di un fattore di .1NM

Questa soluzione ha senso? Ci sono risultati teorici per giustificare questo? Qualche alternativa per affrontare questa sfida?

Risposte:


4

Questa domanda è stata posta molto tempo fa, ma sto pubblicando una risposta nel caso in cui qualcuno la scopra in futuro. In breve, la risposta è sì: è possibile farlo in molte impostazioni e si è giustificati nel correggere la modifica della dimensione del campione con . Questo approccio è di solito chiamato out of boostrap, e funziona nella maggior parte delle impostazioni del bootstrap `` tradizionale '', così come in alcune impostazioni in cui non lo fa.MNMN

Il motivo è che molti argomenti sulla coerenza del bootstrap usano gli stimatori della forma , dove sono variabili casuali e è un parametro di la distribuzione sottostante. Ad esempio, per la media di esempio, e .1N(TN-μ)X1,...,XNμTN=1NΣio=1NXioμ=E(X1)

Molte prove di coerenza del bootstrap sostengono che, come , dato un campione finito e la stima dei punti associati , cui sono disegnati dalla vera distribuzione sottostante e sono disegnati con la sostituzione di .N{X1,...,XN}μ N = T N ( x 1 , ... , x N ) μ^N=TN(X1,...,XN)

(1)N(TN(X1*,...,XN*)-μ^N)DN(TN(X1,...,XN)-μ)
XioXio*{X1,...,XN}

Tuttavia, potremmo anche usare campioni più brevi di lunghezza e considerare lo stimatore Si scopre che, come , lo stimatore ( ) ha la stessa distribuzione limitante di cui sopra nella maggior parte delle impostazioni in cui ( ) detiene e alcuni dove non lo fa. In questo caso, ( ) e ( ) hanno la stessa distribuzione limitante, motivando il fattore di correzione ad esempio la deviazione standard del campione.M<N

(2)M(TM(X1*,...,XM*)-μ^N).
M,N1122112MN

Questi argomenti sono tutti asintotici e valgono solo nel limite . Perché questo funzioni, è importante non scegliere troppo piccolo. C'è una teoria (es. Bickel e Sakov sotto) su come scegliere la ottimale in funzione di per ottenere i migliori risultati teorici, ma nel tuo caso le risorse computazionali possono essere il fattore decisivo.M,NM M NMN

Per un po 'di intuizione: in molti casi, abbiamo come , quindi può essere pensato un po 'come un su bootstrap con e (sto usando lettere minuscole per evitare confusione di notazione ). In questo modo, emulare la distribuzione di ( ) usando un bootstrap out of con è una cosa più `` giusta '' da fare rispetto al tradizionale ( out ofμ^NDμN

(3)N(TN(X1,...,XN)-μ),
mnm=Nn=3MNM<NNN) genere. Un ulteriore vantaggio nel tuo caso è che è meno costoso dal punto di vista computazionale da valutare.

Come hai detto, Politis e Romano sono i principali articoli. Trovo Bickel et al (1997) sotto una bella panoramica del bootstrap out ofMN

Fonti :

PJ Bickel, F Goetze, WR van Zwet. 1997. Ricampionamento di meno di osservazioni: guadagni, perdite e rimedi per le perdite. Statistica Sinica.n

PJ Bickel, A Sakov. 2008. Sulla scelta di nella ouf di bootstrap e la fiducia limiti per estremi. Statistica Sinica.mmn


3

Dopo aver letto di più sull'argomento, sembra che ci sia una teoria consolidata sotto "sottocampionamento" che consente di fare questo tipo di stima dell'intervallo di confidenza. Il riferimento chiave è "Politis, DN; Romano, JP (1994). Grandi regioni di confidenza dei campioni basate su sottocampioni con ipotesi minime. Annals of Statistics, 22, 2031-2050."

L'idea è di prelevare campioni di dimensione M <N, "senza sostituzione" per ciascun campione (ma con sostituzione tra diversi campioni di dimensione B), dai punti di dati iniziali N (serie nel mio caso) e stimare l'intervallo di confidenza di parametro di interesse utilizzando questi esempi e il metodo bootstrap comune. Quindi ridimensionare l'intervallo di confidenza in base al tasso di variazione della varianza della distribuzione sottostante del parametro con i cambiamenti in M. Tale tasso è 1 / M in molte impostazioni comuni, ma potrebbe essere stimato empiricamente se ripetiamo la procedura con alcune M diverse valori e osserva le variazioni nelle dimensioni degli intervalli inter-percentili.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.