Perché i risultati della mia foresta casuale sono così variabili?

Sto cercando di testare la capacità della foresta casuale di classificare i campioni tra 2 gruppi; Esistono 54 campioni e un numero variabile di variabili utilizzate per la classificazione.

Mi chiedevo perché le stime out-of-bag (OOB) possano variare fino al 5% l'una dall'altra anche quando sto usando 50.000 alberi? È qualcosa con cui il bootstrap potrebbe aiutare?

machine-learning random-forest

— Sethzard
fonte

Hai pochi campioni. 50.000 alberi non hanno alcun senso con così pochi campioni. Molto probabilmente le variazioni sono solo un campione classificato in modo errato tra le serie.

— Gio

@ThiS Ho pensato che aumentare il numero di alberi avrebbe ridotto la quantità di varianza che ottengo. C'è un modo per ridurlo a zero efficacemente o sapere quale è il più preciso?

— Sethzard,

Esistono due fonti della varianza OOB. Uno è la casualità della procedura stessa; questo può essere ridotto aumentando il numero di alberi.

L'altra fonte di varianza è l'irriducibile imperfezione di avere dati limitati e vivere in un mondo complesso. L'aumento del numero di alberi non può risolvere questo problema.

Inoltre, a volte non ci sono abbastanza dati per risolvere il problema. Ad esempio, immagina che due istanze abbiano le etichette opposte ma valori identici per le caratteristiche. Uno di questi campioni sarà sempre classificato erroneamente. (Questo è un esempio estremo, ma illustra come alcuni problemi non siano risolvibili. Possiamo rilassarlo un po 'considerando una piccola perturbazione di un vettore; ora sarà di solito classificato come il suo gemello, ma non sempre.) Per risolvere questo problema , dovresti raccogliere misure aggiuntive per distinguere ulteriormente i due punti.

$p(y=1|x)$ $\bar{x}$ $\bar{x}$ $\bar{x}\sim\mathcal{N}(\mu,\frac{\sigma^2}{n})$ $\mu$ $\sigma^2$ $\bar{x}$ $\sigma^2=0$

La varianza irriducibile non può essere riparata tramite bootstrap. Inoltre, le foreste casuali sono già avviate; fa parte del motivo per cui ha "random" nel suo nome. (L'altro motivo è che un sottoinsieme casuale di funzionalità è selezionato in ogni divisione.)

— Sycorax dice Reinstate Monica
fonte