Qualcuno può spiegare la differenza tra RandomForestClassifier e ExtraTreesClassifier in scikit learn. Ho passato un bel po 'di tempo a leggere il giornale:
P. Geurts, D. Ernst. E L. Wehenkel, "Extremely randomized trees", Machine Learning, 63 (1), 3-42, 2006
Sembra che queste siano la differenza per ET:
1) Quando si scelgono le variabili in una divisione, i campioni vengono estratti dall'intero set di addestramento invece di un campione bootstrap del set di addestramento.
2) Gli split vengono scelti in modo completamente casuale dall'intervallo di valori nel campione ad ogni split.
Il risultato di queste due cose sono molte più "foglie".