A cosa si riferisce la "dimensione del nodo" nella foresta casuale?


Risposte:


24

Un albero decisionale funziona in base alla partizione ricorsiva dell'insieme di addestramento. Ogni nodo di un albero decisionale è associato a un set di n t punti dati dal set di training:tnt

n_t è la dimensione di ciascun nodo

È possibile trovare il parametro nodesizein alcuni pacchetti di foreste casuali, ad esempio R : questa è la dimensione minima del nodo , nell'esempio sopra la dimensione minima del nodo è 10. Questo parametro imposta implicitamente la profondità dei tuoi alberi.

nodesize dal pacchetto foresta R casuale

Dimensione minima dei nodi terminali. Se si imposta questo numero su un valore maggiore, gli alberi più piccoli crescono (e quindi richiedono meno tempo). Si noti che i valori predefiniti sono diversi per classificazione (1) e regressione (5).

In altri pacchetti trovi direttamente il parametro depth, ad esempio WEKA :

-depth dal pacchetto foresta casuale WEKA

La profondità massima degli alberi, 0 per illimitato. (impostazione predefinita 0)


1
Cosa sono i "record"? Intendi punti dati? Perché ogni nodo è associato a un set di record? Capisco abbastanza bene le foreste casuali, ma non so cosa significhi il gergo.
Wolfsatthedoor,

Sì, intendevo punto dati. Di solito è possibile fare riferimento a punti dati come record, istanze o esempi.
Simone,

Quindi esiste una regola empirica di dimensioni minime del nodo per evitare il sovradimensionamento degli alberi? Immagino che dipenda dalla dimensione dei dati di allenamento, quindi forse una certa proporzione della dimensione del set di dati?
Seanosapien,

1
Nelle foreste casuali, gli alberi sono completamente cresciuti: la dimensione del nodo è 1. Si evita il sovradimensionamento della crescita di molti alberi. Nell'albero decisionale è più complicato. Gli alberi non sono completamente cresciuti e devi eseguire la potatura per evitare un eccesso di adattamento.
Simone,

1
Sembra che il winnowing sia una sorta di selezione delle caratteristiche per semplificare l'albero ed evitare un adattamento eccessivo. Immagino che potare un singolo albero sia sempre utile. Invece, il winnowing a volte può ridurre la precisione ma semplifica l'albero.
Simone,

2

Non è chiaro se la dimensione del nodo sia sul campionamento "in-bag" o sull'errore "out-of-bag". Se è nel campionamento "out-of-bag", è leggermente più restrittivo.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.