Ruolo del parametro n.minobsinnode di GBM in R [chiuso]


21

Volevo sapere cosa significa il parametro n.minobsinnode nel pacchetto GBM. Ho letto il manuale, ma non è chiaro cosa faccia. Tale numero dovrebbe essere piccolo o grande per migliorare i risultati?


9
"È improbabile che questa domanda aiuti eventuali futuri visitatori". Sono un futuro visitatore e l'ho trovato utile.
Flounderer,

1
L'ho anche trovato utile.
Oaxacamatt

Risposte:


25

Ad ogni passo dell'algoritmo GBM, viene creato un nuovo albero decisionale. La domanda quando si coltiva un albero decisionale è "quando fermarsi?". Il più lontano che puoi fare è dividere ogni nodo fino a quando non c'è solo 1 osservazione in ciascun nodo terminale. Ciò corrisponderebbe a n.minobsinnode = 1. In alternativa, la divisione dei nodi può cessare quando un certo numero di osservazioni si trova in ciascun nodo. L'impostazione predefinita per il pacchetto R GBM è 10.

Qual è il miglior valore da usare? Dipende dal set di dati e dall'eventuale classificazione o regressione. Poiché la previsione di ogni albero viene presa come media della variabile dipendente di tutti gli input nel nodo terminale, un valore di 1 probabilmente non funzionerà così bene per la regressione (!) Ma potrebbe essere adatto per la classificazione.

Valori più alti significano alberi più piccoli, quindi velocizza l'esecuzione dell'algoritmo e usa meno memoria, il che può essere una considerazione.

In generale, i risultati non sono molto sensibili a questo parametro e data la natura stocastica delle prestazioni di GBM potrebbe effettivamente essere difficile determinare esattamente quale valore sia "il migliore". La profondità di interazione, il restringimento e il numero di alberi saranno tutti molto più significativi in ​​generale.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.