Volevo sapere cosa significa il parametro n.minobsinnode nel pacchetto GBM. Ho letto il manuale, ma non è chiaro cosa faccia. Tale numero dovrebbe essere piccolo o grande per migliorare i risultati?
Volevo sapere cosa significa il parametro n.minobsinnode nel pacchetto GBM. Ho letto il manuale, ma non è chiaro cosa faccia. Tale numero dovrebbe essere piccolo o grande per migliorare i risultati?
Risposte:
Ad ogni passo dell'algoritmo GBM, viene creato un nuovo albero decisionale. La domanda quando si coltiva un albero decisionale è "quando fermarsi?". Il più lontano che puoi fare è dividere ogni nodo fino a quando non c'è solo 1 osservazione in ciascun nodo terminale. Ciò corrisponderebbe a n.minobsinnode = 1. In alternativa, la divisione dei nodi può cessare quando un certo numero di osservazioni si trova in ciascun nodo. L'impostazione predefinita per il pacchetto R GBM è 10.
Qual è il miglior valore da usare? Dipende dal set di dati e dall'eventuale classificazione o regressione. Poiché la previsione di ogni albero viene presa come media della variabile dipendente di tutti gli input nel nodo terminale, un valore di 1 probabilmente non funzionerà così bene per la regressione (!) Ma potrebbe essere adatto per la classificazione.
Valori più alti significano alberi più piccoli, quindi velocizza l'esecuzione dell'algoritmo e usa meno memoria, il che può essere una considerazione.
In generale, i risultati non sono molto sensibili a questo parametro e data la natura stocastica delle prestazioni di GBM potrebbe effettivamente essere difficile determinare esattamente quale valore sia "il migliore". La profondità di interazione, il restringimento e il numero di alberi saranno tutti molto più significativi in generale.