Quali algoritmi di insaccamento sono degni successori di Random Forest?


14

Per aumentare gli algoritmi, direi che si sono evoluti abbastanza bene. All'inizio del 1995 fu introdotto AdaBoost, poi dopo qualche tempo fu Gradient Boosting Machine (GBM). Di recente, intorno al 2015 è stato introdotto XGBoost, che è accurato, gestisce il sovradimensionamento ed è diventato un vincitore di più competizioni Kaggle. Nel 2017 LightGBM è stato introdotto da Microsoft, offre un tempo di allenamento significativamente inferiore rispetto a XGBoost. Inoltre, CatBoost è stato introdotto da Yandex per la gestione di caratteristiche categoriche.

Random Forest è stata introdotta all'inizio degli anni 2000, ma ci sono stati degni successori? Penso che se esistesse un algoritmo di insaccamento migliore di Random Forest (che può essere facilmente applicato in pratica) avrebbe attirato l'attenzione in luoghi come Kaggle. Inoltre, perché l'amplificazione è diventata la tecnica di ensemble più popolare, perché è possibile costruire meno alberi per una previsione ottimale?


1
adaBoost è stato effettivamente introdotto nel 1995, ma questo è un punto minore che non altera la tua tesi fondamentale.
jbowman,

3
Dal momento che le foreste casuali abbiamo anche visto l'introduzione di alberi estremamente randomizzati , anche se non sono davvero a conoscenza di alcuna buona prova che queste foreste casuali superino con qualsiasi coerenza, quindi potrebbero non essere un successore "degno" ...
Jake Westfall,

1
BART ( arxiv.org/abs/0806.3286 ) è un modello bayesiano che si è evoluto dal singolo albero bayesiano CART ed è ispirato ai metodi classici dell'insieme. Vale la pena esplorare.
Zen,

il potenziamento è diventato più popolare poiché gestisce con successo molti problemi con tecniche di apprendimento deboli
Refael,

Le foreste avide regolarizzate potrebbero essere degne di nota (lente ma alcuni buoni risultati) e foreste casuali quantili per i loro fantastici effetti collaterali.
Michael M,

Risposte:


3

xgboost, catboost e lightgbm usano alcune funzionalità della foresta casuale (campionamento casuale di variabili / osservazioni), quindi penso che siano un successore di boosting e RF insieme e traggano le cose migliori da entrambi. ;)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.