Quali dovrebbero essere i parametri ottimali per il classificatore Random Forest?


14

Attualmente sto usando la toolbox RF su MATLAB per un problema di classificazione binaria

Set di dati: 50000 campioni e oltre 250 funzioni

Quindi quale dovrebbe essere il numero di alberi e la funzione selezionata casualmente su ogni divisione per far crescere gli alberi? qualsiasi altro parametro può influenzare notevolmente i risultati?

Risposte:


8

Scegli un gran numero di alberi, diciamo 100. Da quello che ho letto su Internet, scegli funzioni selezionate casualmente. Tuttavia, nel documento originale , Breiman utilizzava il numero intero più vicino a .250logMlog2

Direi che la validazione incrociata di solito è la chiave per trovare parametri ottimali, ma non conosco abbastanza le foreste casuali.


Breiman ha utilizzato le funzionalità di . Lascio qui un commento, perché il tuo link non funziona :)1+log2M
Antoine,

Grazie, ho aggiornato il link. Ora è diretto a Berkeley.
Wok,

12

Numero di alberi più grande è, meglio è. Con questo parametro non è quasi possibile effettuare il superamento, ma ovviamente il limite superiore dipende dal tempo di calcolo che si desidera dedicare alla RF.
La buona idea è di creare prima una foresta lunga e poi vedere (spero sia disponibile nell'implementazione MATLAB) quando converge l'accuratezza OOB.

Numero di attributi provati il valore predefinito è radice quadrata dell'intero numero di attributi, ma di solito la foresta non è molto sensibile al valore di questo parametro - in effetti è raramente ottimizzata, soprattutto perché l'aspetto stocastico di RF può introdurre variazioni maggiori.


7

Numero di alberi più grande è, meglio è: d'accordo.

Il numero di attributi provati dipenderà. Se hai già alcuni a priori sul modo in cui le informazioni si stanno diffondendo o meno tra le funzionalità. Se le informazioni sono condivise da molte funzionalità, risultati migliori porterebbero a un valore inferiore di quel parametro. Mentre, d'altra parte, se solo poche funzionalità stanno trasportando le informazioni, dovresti usare valori più grandi. In altre parole, con molte variabili rilevanti: valori più piccoli sono migliori e con molte variabili irrilevanti: valori più grandi sono migliori.


1
Mentre la tua affermazione sul numero di attributi provati ha senso, hai una citazione per questo?
James Owers,

Consiglio di leggere questa tesi: github.com/glouppe/phd-thesis e questa: orbi.ulg.ac.be/handle/2268/25737
0asa
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.