In quali condizioni le macchine per l'incremento del gradiente superano le foreste casuali?

La macchina per aumentare il gradiente di Friedman può ottenere prestazioni migliori rispetto alla Foresta casuale di Breiman ? In tal caso, in quali condizioni o che tipo di set di dati può migliorare gbm?

— user22062
fonte

Non c'è modo di dirlo a priori; devi provarlo.

— Bayerj,

bene, in pratica, il boost quasi sempre supera la RF ... Anche se non so esattamente perché, non ho riscontrato personalmente alcun caso in cui la RF ha superato il boost.

— Antoine,

L'apprendimento di Antoine con dati senza etichetta e / o rumore dell'etichetta è un caso d'uso particolarmente terribile per il potenziamento.

— Marc Claesen,

Bene, RF e Boosting sono usati principalmente per compiti di apprendimento supervisionato, anche se a volte è vero che la RF può essere usata per il clustering. Adaboost non è molto robusto per etichettare a causa della funzione di perdita esponenziale che è fortemente influenzata dal rumore, ma il potenziamento stocastico del gradiente nel caso generale (con devianza multinomiale per esempio) è più robusto.

— Antoine,

@MarcClaesen potresti dare un'occhiata a questa domanda per favore?

— Antoine,

Risposte:

Quanto segue fornisce una spiegazione del perché il Boosting in genere supera le prestazioni di Random Forest in pratica, ma sarei molto interessato a sapere quali altri diversi fattori potrebbero spiegare il vantaggio di Boosting rispetto alla RF in impostazioni specifiche.

$error=bias+variance$

D'altra parte, il potenziamento riduce la distorsione (aggiungendo ogni nuovo albero nella sequenza in modo che venga catturato ciò che è stato perso dall'albero precedente), ma anche la varianza (combinando molti modelli).

Pertanto, il potenziamento riduce l'errore su entrambi i fronti, mentre la RF può ridurre l'errore solo riducendo la varianza. Naturalmente, come ho detto, potrebbero esserci altre spiegazioni per la migliore prestazione di Boosting osservate nella pratica. Ad esempio, pagina 591 del libro sopra citato, si dice che il potenziamento di RF supera il problema della sfera nidificata perché in quel caso particolare il vero limite di decisione è additivo . (?) Riferiscono anche che Boosting fa meglio della RF per lo spam e i dati sulle abitazioni in California.

Un altro riferimento che ha scoperto che Boosting ha sovraperformato le RF è Caruana e Niculescu-Mizil 2006 . Sfortunatamente, riportano i risultati ma non provano a spiegare cosa li provoca. Hanno confrontato i due classificatori (e molti altri) su 11 problemi di classificazione binaria per 8 diverse metriche delle prestazioni.

— Antoine
fonte

Come ha detto bayerj, non c'è modo di sapere a priori!

Le foreste casuali sono relativamente facili da calibrare: i parametri predefiniti della maggior parte delle implementazioni (R o Python, per esempio) ottengono ottimi risultati.

D'altra parte, i GBM sono difficili da mettere a punto (un numero troppo grande di alberi porta a un eccesso di vestibilità, la massima profondità è fondamentale, il tasso di apprendimento e il numero di alberi agiscono insieme ...) e più a lungo da allenare (le implementazioni multithread sono scarse) . Un'accordatura liberamente eseguita può portare a prestazioni ridotte.

Tuttavia, dalla mia esperienza, se passi abbastanza tempo su GBM, è probabile che tu ottenga prestazioni migliori rispetto alla foresta casuale.

$m$

— RUser4512
fonte

A loosely performed tuning may lead to dramatic performance?Attenzione ai fraintendimenti, perché in inglese dramaticsignifica molto buono, eccezionale, fenomenale, ecc.! Immagino che sia l'opposto di quello che volevi dire ... Inoltre, hai qualche spiegazione sul perché i GBM attentamente sintonizzati superano le RF? Questa è sostanzialmente la domanda ...

— Antoine,