Quando ho utilizzato il bootstrap per la valutazione del modello, ho sempre pensato che i campioni out-of-bag fossero usati direttamente come set di test. Tuttavia, questo non sembra essere il caso dell'approccio scikit-learn deprecato , che sembra costruire il set di test dal disegno con la sostituzione dal sottoinsieme di dati out-of-bag. Qual è il ragionamento statistico alla base di questo? Esistono scenari specifici in cui questa tecnica è migliore della semplice valutazione del campione out-of-bag o viceversa?Bootstrap