Voglio sapere se il processo descritto di seguito è valido / accettabile e qualsiasi giustificazione disponibile.
L'idea: gli algoritmi di apprendimento supervisionato non assumono strutture / distribuzioni sottostanti sui dati. Alla fine della giornata forniscono stime dei punti. Spero in qualche modo di quantificare l'incertezza delle stime. Ora, il processo di costruzione del modello ML è intrinsecamente casuale (ad esempio nel campionamento per la convalida incrociata per l'ottimizzazione dell'iperparametro e nel sottocampionamento nello GBM stocastico), quindi una pipeline di modellazione mi darà un output diverso per gli stessi predittori con ogni seme diverso. La mia (ingenua) idea è di eseguire ripetutamente questo processo per elaborare una distribuzione della previsione, e spero di poter fare delle dichiarazioni sull'incertezza delle previsioni.
Se è importante, i set di dati con cui lavoro sono in genere molto piccoli (~ 200 righe.)
ha senso?
Per chiarire, in realtà non sto eseguendo il bootstrap dei dati in senso tradizionale (ovvero non sto ricampionando i dati). Lo stesso set di dati viene utilizzato in ogni iterazione, sto solo sfruttando la casualità in xval e stocastico GBM.