Pro e contro del bootstrap

11

Ho appena appreso il concetto di bootstrap e mi è venuta in mente una domanda ingenua: se possiamo sempre generare numerosi campioni bootstrap dei nostri dati, perché preoccuparsi di ottenere più dati "reali"?

Penso di avere una spiegazione, per favore dimmi se sono corretto: penso che il processo di bootstrap riduca la varianza, MA se il mio set di dati originale è BIASED, che sono bloccato con bassa varianza e distorsione elevata, non importa quante repliche Sto prendendo.

variance bootstrap bias

— Noale
fonte

4

il bootstrap non crea più informazioni di quelle già presenti nei dati (e nel modello) ... i dati effettivi possono darti più informazioni

— Glen_b -Reinstate Monica

2

Sono d'accordo con Glen_b che non crea più informazioni ma non sono d'accordo sul fatto che possa fornirti meno informazioni. Come ho detto nella mia risposta, non sempre funziona bene, ma si può dire di qualsiasi metodo statistico.

— Michael R. Chernick,

1

Domanda interessante: forse un concetto correlato è perché il bootstrap funziona? . Capire questo aiuterà a sapere quando è utile. Ho pensato al bootstrap come un miglioramento rispetto alla normale approssimazione per le distribuzioni di campionamento. Può gestire le deviazioni dalla normalità che non sono troppo estreme. Un'altra caratteristica interessante è che non è necessario eseguire un lavoro analitico / algebrico: la replica fa questo per te.

— probabilityislogic

15

Il bootstrap è un metodo per fare inferenza in un modo che non richiede di assumere una forma parametrica per la distribuzione della popolazione. Non tratta il campione originale come se fosse la popolazione, anche quelli che comporta il campionamento con la sostituzione dal campione originale. Si presume che il campionamento con la sostituzione dal campione originale di dimensione n imiti il prelievo di un campione di dimensione n da una popolazione più ampia. Ha anche molte varianti come m out di n bootstrap che ricampiona m tempo da un campione di dimensione n dove m <n. Le belle proprietà del bootstrap dipendono dalla teoria asintotica. Come altri hanno già detto, il bootstrap non contiene più informazioni sulla popolazione di quelle fornite nell'esempio originale. Per questo motivo a volte non funziona bene in piccoli campioni.

Nel mio libro "Bootstrap Methods: A Practitioners Guide", seconda edizione pubblicata da Wiley nel 2007, sottolineo situazioni in cui il bootstrap può fallire. Ciò include la distribuzione che non ha momenti limitati, piccole dimensioni del campione, la stima di valori estremi dalla distribuzione e la stima della varianza nel campionamento del sondaggio in cui la dimensione della popolazione è N e viene prelevato un campione ampio n. In alcuni casi, le varianti del bootstrap possono funzionare meglio dell'approccio originale. Ciò accade con il bootstrap m di n in alcune applicazioni. Nel caso della stima dei tassi di errore nell'analisi discriminante, il bootstrap 632 rappresenta un miglioramento rispetto ad altri metodi, inclusi altri metodi bootstrap.

Un motivo per usarlo è che a volte non si può fare affidamento su ipotesi parametriche e in alcune situazioni il bootstrap funziona meglio di altri metodi non parametrici. Può essere applicato a una vasta gamma di problemi tra cui la regressione non lineare, la classificazione, la stima dell'intervallo di confidenza, la stima della distorsione, l'adeguamento dei valori di p e l'analisi delle serie temporali per citarne alcuni.

— Michael R. Chernick
fonte

6

Un esempio bootstrap può solo dirti cose sull'esempio originale e non ti darà nuove informazioni sulla popolazione reale. È semplicemente un metodo non parametrico per costruire intervalli di confidenza e simili.

Se vuoi ottenere maggiori informazioni sulla popolazione, devi raccogliere più dati dalla popolazione.

— Einar
fonte