Se la quantità di interesse, di solito funzionale a una distribuzione, è ragionevolmente regolare e i tuoi dati sono protetti, di solito ti trovi in un territorio abbastanza sicuro. Naturalmente, ci sono altre circostanze in cui anche il bootstrap funzionerà.
Cosa significa che il bootstrap "fallisce"
In generale, lo scopo del bootstrap è di costruire una distribuzione approssimativa di campionamento per la statistica di interesse. Non si tratta della stima effettiva del parametro. Quindi, se la statistica di interesse (sotto alcuni riscalamenti e centraggi) è e nella distribuzione, vorremmo che la nostra distribuzione bootstrap convergere alla distribuzione di . Se non lo abbiamo, non possiamo fidarci delle inferenze fatte.X^nX^n→X∞X∞
L' esempio canonico di quando il bootstrap può fallire, anche in un framework iid, è quando si tenta di approssimare la distribuzione campionaria di una statistica di ordine estremo. Di seguito è una breve discussione.
Massimo statistica ordine di un campione casuale di una distribuzioneU[0,θ]
Consenti a essere una sequenza di variabili casuali uniformi su . Lascia che . La distribuzione di è
(Si noti che da un argomento molto semplice, questo in realtà mostra anche che in probabilità e persino, quasi sicuramente , se le variabili casuali sono tutte definite nello stesso spazio.)X1,X2,…[0,θ]X(n)=max1≤k≤nXkX(n)
P(X(n)≤x)=(x/θ)n.
X(n)→θ
Un calcolo elementare produce
o, in altre parole, converge nella distribuzione in una variabile casuale esponenziale con mean .
P(n(θ−X(n))≤x)=1−(1−xθn)n→1−e−x/θ,
n(θ−X(n))θ
Ora formiamo una stima (ingenua) del bootstrap della distribuzione di ricampionando con la sostituzione per ottenere e usando la distribuzione di base a .n(θ−X(n))X1,…,XnX⋆1,…,X⋆nn(X(n)−X⋆(n))X1,…,Xn
Tuttavia, osserva che con probabilità , e quindi la distribuzione bootstrap ha una massa di punti a zero anche asintoticamente nonostante il fatto che l'attuale distribuzione limitante sia continua.X⋆(n)=X(n)1−(1−1/n)n→1−e−1
Più esplicitamente, sebbene la vera distribuzione limitante sia esponenziale con media , la distribuzione limitatrice bootstrap pone una massa in punti pari a zero della dimensione indipendentemente dal valore reale di . Prendendo sufficientemente grande, possiamo rendere la probabilità della vera distribuzione limitante arbitraria piccola per qualsiasi intervallo fisso , ma il bootstrap ( ancora !) Segnalerà che ci sono almeno probabilità 0,632 in questo intervallo! Da ciò dovrebbe essere chiaro che il bootstrap può comportarsi in modo arbitrario in questa impostazione.θ1−e−1≈0.632 θθ[0,ε)
In breve, il bootstrap fallisce (miseramente) in questo caso. Le cose tendono ad andare male quando si tratta di parametri ai margini dello spazio dei parametri.
Un esempio da un campione di normali variabili casuali
Ci sono altri esempi simili del fallimento del bootstrap in circostanze sorprendentemente semplici.
Si consideri un esempio da cui lo spazio dei parametri per è limitato a . Il MLE in questo caso è . Ancora una volta, usiamo la stima bootstrap . Ancora una volta, si può dimostrare che la distribuzione di (in base al campione osservato) non converge alla stessa distribuzione limitante di .X1,X2,…N(μ,1)μ[0,∞)X^n=max(X¯,0)X^⋆n=max(X¯⋆,0)n−−√(X^⋆n−X^n)n−−√(X^n−μ)
Matrici intercambiabili
Forse uno degli esempi più drammatici è per un array intercambiabile. Sia essere una matrice di variabili casuali tale che, per ogni coppia di matrici di permutazione e , gli array e hanno la stessa distribuzione congiunta. Cioè, permutando righe e colonne di mantiene invariata la distribuzione. (Puoi pensare a un modello di effetti casuali a due vie con un'osservazione per cella come esempio, sebbene il modello sia molto più generale.)Y=(Yij)PQYPYQY
Supponiamo di voler stimare un intervallo di confidenza per la media (a causa dell'assunto di scambiabilità descritto sopra i mezzi di tutte le le celle devono essere uguali).μ=E(Yij)=E(Y11)
McCullagh (2000) ha preso in considerazione due diversi modi naturali (cioè ingenui) di avviare un tale array. Nessuno dei due ottiene la varianza asintotica per la media del campione corretta. Considera anche alcuni esempi di un array intercambiabile unidirezionale e di regressione lineare.
Riferimenti
Sfortunatamente, l'argomento non è banale, quindi nessuna di queste sono letture particolarmente facili.
P. Bickel e D. Freedman, Qualche teoria asintotica per il bootstrap . Ann. Statistica. , vol. 9, n. 6 (1981), 1196–1217.
DWK Andrews, Incoerenza del bootstrap quando un parametro si trova al limite dello spazio dei parametri , Econometrica , vol. 68, n. 2 (2000), 399–405.
P. McCullagh, Ricampionamento e array intercambiabili , Bernoulli , vol. 6, n. 2 (2000), 285–301.
EL Lehmann e JP Romano, Testing Ipotesi statistiche , 3 °. ed., Springer (2005). [Capitolo 15: Metodi generali di esempio di grandi dimensioni]