Perché non segnalare la media di una distribuzione bootstrap?


30

Quando si avvia un parametro per ottenere l'errore standard, si ottiene una distribuzione del parametro. Perché non utilizziamo la media di tale distribuzione come risultato o stima per il parametro che stiamo cercando di ottenere? La distribuzione non dovrebbe avvicinarsi a quella reale? Quindi avremmo una buona stima del valore "reale"? Tuttavia riportiamo il parametro originale che abbiamo ottenuto dal nostro campione. Perché?

Grazie

Risposte:


24

Perché la statistica avviata è un'ulteriore astrazione dal parametro di popolazione. Hai il parametro di popolazione, la statistica di esempio e solo sul terzo livello hai il bootstrap. Il valore medio bootstrap non è uno stimatore migliore per il parametro di popolazione. È semplicemente una stima di una stima.

Come la distribuzione bootstrap contenente tutte le possibili combinazioni bootstrap è centrata attorno alla statistica del campione in modo simile alla statistica del campione centrata attorno al parametro di popolazione nelle stesse condizioni. Questo documento qui riassume abbastanza bene queste cose ed è una delle più facili da trovare. Per prove più dettagliate segui i documenti a cui fanno riferimento. Esempi degni di nota sono Efron (1979) e Singh (1981)n

La distribuzione bootstrap di segue la distribuzione di θ - θ che lo rende utile nella stima dell'errore standard di una stima del campione, nella costruzione di intervalli di confidenza, e nella stima di bias di un parametro. Non lo rende uno stimatore migliore per il parametro della popolazione. Offre semplicemente un'alternativa talvolta migliore alla normale distribuzione parametrica per la distribuzione della statistica.θBθ^θ^θ


13

V'è almeno un caso in cui le persone non usano la media della distribuzione bootstrap: insaccamento (abbreviazione di bootstrap aggregazione ).

L'idea di base è che se lo stimatore è molto sensibile alle perturbazioni nei dati (ovvero, lo stimatore ha una varianza elevata e una bassa distorsione), è possibile eseguire la media su molti campioni bootstrap per ridurre la quantità di esempi particolari di overfitting.

La pagina a cui ho collegato sottolinea che ciò introduce alcuni pregiudizi nella stima, motivo per cui la media del campione avrà spesso più senso della media dei campioni bootstrap. Ma se hai qualcosa come un albero decisionale o un classificatore di vicinato più vicino che può cambiare radicalmente in risposta a piccole modifiche nei dati, allora questa distorsione potrebbe non essere tanto preoccupante quanto il sovradimensionamento.


1
yθ

Normalmente vedo il bagging usato per ridurre la varianza delle proprie stime per la risposta (cioè la sua sensibilità alle fluttuazioni dei dati). I modelli più comunemente insaccati (ad esempio alberi) in genere non hanno parametri ben definiti che potrebbero essere facilmente confrontati tra i campioni bootstrap.
David J. Harris,

Grazie, è esattamente quello che pensavo anch'io. Per me il bagging non sembra avere molto senso se non la stima di una risposta, quindi è limitato in questo senso.
Momo,

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.