Possiamo usare campioni bootstrap più piccoli del campione originale?

12

Voglio utilizzare il bootstrap per stimare gli intervalli di confidenza per i parametri stimati da un set di dati del pannello con N = 250 aziende e T = 50 mesi. La stima dei parametri è computazionalmente costosa (pochi giorni di calcolo) a causa dell'uso del filtraggio di Kalman e della complessa stima non lineare. Pertanto, prelevare (con la sostituzione) B (in centinaia o più) campioni di M = N = 250 ditte dal campione originale e stimare i parametri B volte è impossibile dal punto di vista computazionale, anche se questo è il metodo di base per il bootstrap.

Quindi sto considerando di usare una M più piccola (ad es. 10) per i campioni bootstrap (anziché la dimensione intera di N = 250), disegnata casualmente con la sostituzione da aziende originali, e quindi ridimensionare la matrice di covarianza stimata da bootstrap dei parametri del modello con (nell'esempio sopra di 1/25) per calcolare la matrice di covarianza per i parametri del modello stimati sull'intero campione. $\frac{1}{\frac{N}{M}}$

Gli intervalli di confidenza desiderati possono quindi essere approssimati in base al presupposto della normalità o quelli empirici per campioni più piccoli ridimensionati utilizzando una procedura simile (ad esempio ridimensionati di un fattore di . $\frac{1}{\sqrt{\frac{N}{M}}}$

Questa soluzione ha senso? Ci sono risultati teorici per giustificare questo? Qualche alternativa per affrontare questa sfida?

— Hazhir
fonte

4

Questa domanda è stata posta molto tempo fa, ma sto pubblicando una risposta nel caso in cui qualcuno la scopra in futuro. In breve, la risposta è sì: è possibile farlo in molte impostazioni e si è giustificati nel correggere la modifica della dimensione del campione con . Questo approccio è di solito chiamato out of boostrap, e funziona nella maggior parte delle impostazioni del bootstrap `` tradizionale '', così come in alcune impostazioni in cui non lo fa. $\sqrt{\frac{M}{N}}$ $M$ $N$

Il motivo è che molti argomenti sulla coerenza del bootstrap usano gli stimatori della forma , dove sono variabili casuali e è un parametro di la distribuzione sottostante. Ad esempio, per la media di esempio, e . $\frac{1}{\sqrt{N}} (T_N - \mu)$ $X_1, \ldots, X_N$ $\mu$ $T_N = \frac{1}{N} \sum_{i=1}^N X_i$ $\mu = \mathbb{E}(X_1)$

Molte prove di coerenza del bootstrap sostengono che, come , dato un campione finito e la stima dei punti associati , cui sono disegnati dalla vera distribuzione sottostante e sono disegnati con la sostituzione di . $N \to \infty$ $\{x_1, \ldots, x_N\}$ $\hat{\mu}_N = T_N(x_1, \ldots, x_N)$

\begin{matrix} (1) & \sqrt{N} (T_{N} (X_{1}^{*}, ..., X_{N}^{*}) - {\hat{μ}}_{N}) \overset{D}{\to} \sqrt{N} (T_{N} (X_{1}, ..., X_{N}) - μ) \end{matrix}

$\sqrt{N}(T_N(X_1^*, \ldots, X_N^*) - \hat{\mu}_N) \overset{D}{\to} \sqrt{N}(T_N(X_1, \ldots, X_N) - \mu) \tag{1} \label{convergence}$

X_{i}

$X_i$

X_{i}^{*}

$X_i^*$

{x_{1}, \dots, x_{N}}

$\{x_1, \ldots, x_N\}$

Tuttavia, potremmo anche usare campioni più brevi di lunghezza e considerare lo stimatore Si scopre che, come , lo stimatore ( ) ha la stessa distribuzione limitante di cui sopra nella maggior parte delle impostazioni in cui ( ) detiene e alcuni dove non lo fa. In questo caso, ( ) e ( ) hanno la stessa distribuzione limitante, motivando il fattore di correzione ad esempio la deviazione standard del campione. $M < N$

\begin{matrix} (2) & \sqrt{M} (T_{M} (X_{1}^{*}, ..., X_{M}^{*}) - {\hat{μ}}_{N}) . \end{matrix}

$\sqrt{M}(T_M(X_1^*, \ldots, X_M^*) - \hat{\mu}_N). \tag{2} \label{m_out_of_n}$

M, N \to \infty

$M, N \to \infty$

2

$\ref{m_out_of_n}$

1

$\ref{convergence}$

1

$\ref{convergence}$

2

$\ref{m_out_of_n}$

\sqrt{\frac{M}{N}}

$\sqrt{\frac{M}{N}}$

Questi argomenti sono tutti asintotici e valgono solo nel limite . Perché questo funzioni, è importante non scegliere troppo piccolo. C'è una teoria (es. Bickel e Sakov sotto) su come scegliere la ottimale in funzione di per ottenere i migliori risultati teorici, ma nel tuo caso le risorse computazionali possono essere il fattore decisivo. $M, N \to \infty$ $M$ $M$ $N$

Per un po 'di intuizione: in molti casi, abbiamo come , quindi può essere pensato un po 'come un su bootstrap con e (sto usando lettere minuscole per evitare confusione di notazione ). In questo modo, emulare la distribuzione di ( ) usando un bootstrap out of con è una cosa più `` giusta '' da fare rispetto al tradizionale ( out of $\hat{\mu}_N \overset{D}{\to} \mu$ $N \to \infty$

\begin{matrix} (3) & \sqrt{N} (T_{N} (X_{1}, ..., X_{N}) - μ), \end{matrix}

$\sqrt{N}(T_N(X_1, \ldots, X_N) - \mu), \tag{3} \label{m_out_of_n_intuition}$

m

$m$

n

$n$

m = N

$m=N$

n = \infty

$n = \infty$

3

$\ref{m_out_of_n_intuition}$

M

$M$

N

$N$

M < N

$M < N$

N

$N$

N

$N$ ) genere. Un ulteriore vantaggio nel tuo caso è che è meno costoso dal punto di vista computazionale da valutare.

Come hai detto, Politis e Romano sono i principali articoli. Trovo Bickel et al (1997) sotto una bella panoramica del bootstrap out of $M$ $N$

Fonti :

PJ Bickel, F Goetze, WR van Zwet. 1997. Ricampionamento di meno di osservazioni: guadagni, perdite e rimedi per le perdite. Statistica Sinica. $n$

PJ Bickel, A Sakov. 2008. Sulla scelta di nella ouf di bootstrap e la fiducia limiti per estremi. Statistica Sinica. $m$ $m$ $n$

— aph416
fonte

3

Dopo aver letto di più sull'argomento, sembra che ci sia una teoria consolidata sotto "sottocampionamento" che consente di fare questo tipo di stima dell'intervallo di confidenza. Il riferimento chiave è "Politis, DN; Romano, JP (1994). Grandi regioni di confidenza dei campioni basate su sottocampioni con ipotesi minime. Annals of Statistics, 22, 2031-2050."

L'idea è di prelevare campioni di dimensione M <N, "senza sostituzione" per ciascun campione (ma con sostituzione tra diversi campioni di dimensione B), dai punti di dati iniziali N (serie nel mio caso) e stimare l'intervallo di confidenza di parametro di interesse utilizzando questi esempi e il metodo bootstrap comune. Quindi ridimensionare l'intervallo di confidenza in base al tasso di variazione della varianza della distribuzione sottostante del parametro con i cambiamenti in M. Tale tasso è 1 / M in molte impostazioni comuni, ma potrebbe essere stimato empiricamente se ripetiamo la procedura con alcune M diverse valori e osserva le variazioni nelle dimensioni degli intervalli inter-percentili.

— Hazhir
fonte