Qual è la funzione di costo migliore per un albero forestale casuale: indice Gini o entropia?


12

Qual è la funzione di costo migliore per un albero forestale casuale: indice Gini o entropia?

Sto cercando di implementare una foresta casuale a Clojure.

Risposte:


9

Come ho trovato in Introduzione al data mining di Tan et. al:

Gli studi hanno dimostrato che la scelta della misura di impurità ha scarso effetto sulle prestazioni degli algoritmi di induzione dell'albero decisionale. Questo perché molte misure di impurità sono abbastanza coerenti tra loro [...]. In effetti, la strategia utilizzata per potare l'albero ha un impatto maggiore sull'albero finale rispetto alla scelta della misura di impurità.

Pertanto, puoi scegliere di utilizzare l'indice Gini come CART o Entropy come C4.5.

Vorrei usare Entropy, più specificamente il rapporto di guadagno di C4.5 perché puoi facilmente seguire il libro ben scritto di Quinlan: Programmi C4.5 per l'apprendimento automatico.


3
Piccola osservazione: l'entropia utilizza i registri, ciò che può essere un problema di tempo di calcolo.

8
Questa osservazione riguarda alberi puri di decisione, ma non foreste casuali. Di solito non potare un albero in una foresta casuale perché non stai cercando di costruire un albero migliore. Quindi sembra fuorviante parlare di ciò che è più importante: la potatura o la misura dell'impurità. L'obiettivo è trovare l'albero migliore da utilizzare con la foresta casuale.
Chan-Ho Suh,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.