Bootstrap: il problema del sovradimensionamento


14

Supponiamo che uno esegua il cosiddetto bootstrap non parametrico tracciando campioni di dimensioni n ciascuno ciascuno dalle n osservazioni originali con sostituzione. Credo che questa procedura equivale a stimare la funzione di distribuzione cumulativa dal cdf empirico:Bnn

http://en.wikipedia.org/wiki/Empirical_distribution_function

e quindi ottenere i campioni di bootstrap simulando osservazioni dalla stima b di cdf volte di seguito.nB

Se ho ragione in questo, allora si deve affrontare il problema del sovradimensionamento, perché il cdf empirico ha circa N parametri. Certo, asintoticamente converge alla popolazione cdf, ma per quanto riguarda i campioni finiti? Ad esempio, se ti dicessi che ho 100 osservazioni e ho intenzione di stimare il cdf come con due parametri, non saresti allarmato. Tuttavia, se il numero di parametri dovesse arrivare a 100, non sembrerebbe affatto ragionevole.N(μ,σ2)

Allo stesso modo, quando si utilizza una regressione lineare multipla standard, la distribuzione del termine di errore viene stimata come . Se uno decide di passare al bootstrap dei residui, deve rendersi conto che ora ci sono circa n parametri usati solo per gestire la distribuzione dei termini di errore.N(0,σ2)n

Potresti indirizzarmi verso alcune fonti che affrontano esplicitamente questo problema o dirmi perché non è un problema se pensi di aver sbagliato.


Un modo per visualizzare questo bootstrap "non parametrico" è che converte l'assunzione parametrica della normalità in una "quantità di interesse" in una grande popolazione finita (ad esempio, la media di un censimento dei registri). In effetti, puoi mostrare che questa versione del bootstrap si basa su stime di "massima verosimiglianza" del modello multinomiale, con 1 categoria per ogni "tipo" distinto nella popolazione.
probabilityislogic

Risposte:


2

non sono del tutto sicuro di aver capito bene la tua domanda ... suppongo che tu sia interessato all'ordine di convergenza?

perché il cdf empirico ha circa N parametri. Certo, asintoticamente converge alla popolazione cdf, ma per quanto riguarda i campioni finiti?

Hai letto alcune nozioni di base sulla teoria bootstrap? Il problema è che diventa piuttosto selvaggio (matematicamente) abbastanza rapidamente.

Ad ogni modo, consiglio di dare un'occhiata

van der Vaart "Statistiche asintotiche" capitolo 23.

Hall "Espansioni Bootstrap e Edgeworth" (lunghe ma concise e meno ondulate rispetto a van der Vaart, direi)

per le basi.

"Metodi Bootstrap" di Chernick è più rivolto agli utenti piuttosto che ai matematici ma ha una sezione su "dove bootstrap fallisce".

Il classico Efron / Tibshirani ha ben poco sul perché il bootstrap funzioni davvero ...


4

N(μ,σ2)

Intuitivamente, il bootstrap da campioni finiti sottostima le code pesanti della distribuzione sottostante. Questo è chiaro, poiché i campioni finiti hanno una gamma finita, anche se la gamma della loro distribuzione reale è infinita o, peggio ancora, ha code pesanti. Quindi il comportamento della statistica bootstrap non sarà mai "selvaggio" come la statistica originale. Così simile a evitare un overfitting dovuto a troppi parametri nella regressione (parametrica), potremmo evitare un overfitting utilizzando la distribuzione normale a pochi parametri.

Modifica rispondendo ai commenti: ricorda che non è necessario il bootstrap per stimare il cdf. Di solito si utilizza il bootstrap per ottenere la distribuzione (nel senso più ampio, inclusi quantili, momenti, qualunque cosa sia necessaria) di alcune statistiche. Quindi non hai necessariamente un problema di overfitting (in termini di "la stima dovuta ai miei dati finiti sembra troppo bella rispetto a ciò che dovrei vedere con la vera distribuzione selvaggia"). Ma come si è scoperto (dal documento citato e dal commento di Frank Harrel di seguito), ottenere un tale problema di adattamento è collegato a problemi con la stima parametrica delle stesse statistiche.

Quindi, come implica la tua domanda, il bootstrap non è una panacea contro i problemi con la stima parametrica. La speranza che il bootstrap possa aiutare con problemi di parametri controllando l'intera distribuzione è falsa.


1
Non è ancora chiaro come il bootstrap riesca a funzionare dato che il numero di parametri effettivi coinvolti nel bootstrap è circa lo stesso della dimensione dei campioni. Ho una supposizione: l'obiettivo finale di bootstrap non è stimare l'intera distribuzione, ma stimare 1-2 statistiche della distribuzione. Pertanto, nonostante il cdf empirico incorporato nel bootstrap sia gravemente sovradimensionato, le statistiche stimate in 1-2 finiscono in qualche modo bene. Ho capito bene?
James,

4
Il numero di parametri effettivi non è uguale alla dimensione del campione. La varianza della funzione di distribuzione cumulativa empirica è circa la stessa della varianza di un adattamento parametrico alla distribuzione quando la distribuzione ha 4 parametri sconosciuti da stimare. Uno dei motivi è che le stime empiriche di CDF sono costrette ad essere in ordine crescente.
Frank Harrell,

Buon punto. Potresti fornire un riferimento?
James,

Vorrei averne uno. L'ho mostrato in passato con la simulazione Monte Carlo.
Frank Harrell,

L2F^FF^(x)F(x)

0

Una fonte di intuizione potrebbe essere quella di confrontare i tassi di convergenza per CDF parametrici rispetto a ECDF, per i dati iid.

n1/2

n1/2σμ

Quindi, in un certo senso, la velocità con cui è necessario acquisire più campioni è la stessa, sia che si stia stimando il CDF usando un CDF empirico sia che si stia stimando un parametro direttamente usando uno stimatore del tipo medio-campione. Questo potrebbe giustificare il commento di Frank Harrell secondo cui "Il numero di parametri effettivi non è uguale alla dimensione del campione".

Certo, non è tutta la storia. Sebbene le tariffe non differiscano, le costanti lo fanno. E c'è molto di più nel bootstrap non parametrico rispetto agli ECDF: una volta stimato, è ancora necessario fare cose con l'ECDF.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.