In Random Forest, ogni albero viene cresciuto in parallelo su un unico esempio di boostrap dei dati. Poiché ci si aspetta che ogni campione di boostrap contenga circa il 63% di osservazioni uniche, questo lascia circa il 37% di osservazioni che possono essere utilizzate per testare l'albero.
Ora, sembra che nel potenziamento del gradiente stocastico, ci sia anche una simile a quella in RF:
Se bag.fraction è impostato su un valore maggiore di 0 (si consiglia 0,5), gbm calcola una stima out-of-bag del miglioramento delle prestazioni predittive. Valuta la riduzione della devianza su quelle osservazioni non utilizzate nella selezione del prossimo albero di regressione.
Fonte: Ridgeway (2007) , sezione 3.3 (pagina 8).
Ho difficoltà a capire come funziona / è valido. Di 'che sto aggiungendo un albero nella sequenza. Sto crescendo questo albero su un sottocampione casuale del set di dati originale. Ho potuto testare questo singolo albero sulle osservazioni che non sono state utilizzate per coltivarlo. Concordato. MA , poiché Boosting è sequenziale, sto piuttosto usando l' intera sequenza di alberi costruita finora per fornire una previsione per quelle osservazioni lasciate fuori. E c'è un'alta probabilità che molti degli alberi precedenti abbiano già visto queste osservazioni. Quindi il modello non viene realmente testato ad ogni round su osservazioni invisibili come con RF, giusto?
Quindi, come mai questo viene chiamato stima dell'errore "out-of-bag"? Per me, non sembra essere "fuori" da nessuna borsa poiché le osservazioni sono già state viste?