La macchina per aumentare il gradiente di Friedman può ottenere prestazioni migliori rispetto alla Foresta casuale di Breiman ? In tal caso, in quali condizioni o che tipo di set di dati può migliorare gbm?
La macchina per aumentare il gradiente di Friedman può ottenere prestazioni migliori rispetto alla Foresta casuale di Breiman ? In tal caso, in quali condizioni o che tipo di set di dati può migliorare gbm?
Risposte:
Quanto segue fornisce una spiegazione del perché il Boosting in genere supera le prestazioni di Random Forest in pratica, ma sarei molto interessato a sapere quali altri diversi fattori potrebbero spiegare il vantaggio di Boosting rispetto alla RF in impostazioni specifiche.
D'altra parte, il potenziamento riduce la distorsione (aggiungendo ogni nuovo albero nella sequenza in modo che venga catturato ciò che è stato perso dall'albero precedente), ma anche la varianza (combinando molti modelli).
Pertanto, il potenziamento riduce l'errore su entrambi i fronti, mentre la RF può ridurre l'errore solo riducendo la varianza. Naturalmente, come ho detto, potrebbero esserci altre spiegazioni per la migliore prestazione di Boosting osservate nella pratica. Ad esempio, pagina 591 del libro sopra citato, si dice che il potenziamento di RF supera il problema della sfera nidificata perché in quel caso particolare il vero limite di decisione è additivo . (?) Riferiscono anche che Boosting fa meglio della RF per lo spam e i dati sulle abitazioni in California.
Un altro riferimento che ha scoperto che Boosting ha sovraperformato le RF è Caruana e Niculescu-Mizil 2006 . Sfortunatamente, riportano i risultati ma non provano a spiegare cosa li provoca. Hanno confrontato i due classificatori (e molti altri) su 11 problemi di classificazione binaria per 8 diverse metriche delle prestazioni.
Come ha detto bayerj, non c'è modo di sapere a priori!
Le foreste casuali sono relativamente facili da calibrare: i parametri predefiniti della maggior parte delle implementazioni (R o Python, per esempio) ottengono ottimi risultati.
D'altra parte, i GBM sono difficili da mettere a punto (un numero troppo grande di alberi porta a un eccesso di vestibilità, la massima profondità è fondamentale, il tasso di apprendimento e il numero di alberi agiscono insieme ...) e più a lungo da allenare (le implementazioni multithread sono scarse) . Un'accordatura liberamente eseguita può portare a prestazioni ridotte.
Tuttavia, dalla mia esperienza, se passi abbastanza tempo su GBM, è probabile che tu ottenga prestazioni migliori rispetto alla foresta casuale.
A loosely performed tuning may lead to dramatic performance?
Attenzione ai fraintendimenti, perché in inglese dramatic
significa molto buono, eccezionale, fenomenale, ecc.! Immagino che sia l'opposto di quello che volevi dire ... Inoltre, hai qualche spiegazione sul perché i GBM attentamente sintonizzati superano le RF? Questa è sostanzialmente la domanda ...