Perché Adaboost con gli alberi decisionali?


11

Ho letto un po 'su come potenziare gli algoritmi per le attività di classificazione e Adaboost in particolare. Capisco che lo scopo di Adaboost è quello di prendere diversi "discenti deboli" e, attraverso una serie di iterazioni sui dati di allenamento, spingere i classificatori a imparare a prevedere le classi su cui i modelli ripetutamente commettono errori. Tuttavia, mi chiedevo perché così tante letture che ho fatto abbiano usato gli alberi delle decisioni come classificatore debole. C'è un motivo particolare per questo? Esistono alcuni classificatori che rendono candidati particolarmente buoni o cattivi per Adaboost?


Lo studente più semplice che puoi usare è l'albero decisionale con profondità = 1. Forse è per questo che tutti lo usano nei loro esempi.
Aaron,

Risposte:


17

Ne ho parlato in una risposta a una domanda SO relativa . Gli alberi decisionali sono in genere un'ottima soluzione per il potenziamento, molto più degli altri algoritmi. Il punto elenco / versione di riepilogo è questo:

  1. Gli alberi decisionali non sono lineari. Il potenziamento con modelli lineari semplicemente non funziona bene.
  2. Lo studente debole deve essere costantemente migliore delle ipotesi casuali. Normalmente non è necessario eseguire alcuna regolazione dei parametri su un albero decisionale per ottenere quel comportamento. La formazione di un SVM richiede davvero una ricerca di parametri. Poiché i dati vengono ripesati su ciascuna iterazione, è probabile che sia necessario eseguire un'altra ricerca dei parametri su ciascuna iterazione. Quindi stai aumentando la quantità di lavoro che devi fare con un ampio margine.
  3. Gli alberi decisionali sono ragionevolmente veloci da addestrare. Dato che ne costruiremo 100 o 1000, questa è una buona proprietà. Sono anche veloci da classificare, il che è di nuovo importante quando sono necessari 100 o 1000 secondi per poter emettere la tua decisione.
  4. Modificando la profondità si ha un controllo semplice e facile sul compromesso di bias / varianza, sapendo che il potenziamento può ridurre il bias ma anche ridurre significativamente la varianza. Il potenziamento è noto per essere troppo adatto, quindi il nob facile da sintonizzare è utile in tal senso.

1

Non ho una risposta da manuale. Comunque ecco alcuni pensieri.

L'aumento può essere visto nel confronto diretto con l'insacco. Questi sono due diversi approcci del dilemma del compromesso della varianza di pregiudizio. Mentre l'insacchettamento ha come discenti deboli, alcuni studenti con distorsioni basse e varianza elevata, facendo la media dell'ensemble di insaccamento diminuiscono la varianza per un piccolo pregiudizio. Il potenziamento d'altra parte funziona bene con diversi studenti deboli. Gli studenti deboli che aumentano hanno un'alta propensione e una bassa varianza. Costruendo uno studente sulla cima di un altro, l'ensemble di potenziamento cerca di ridurre la distorsione, per una piccola variazione.

Di conseguenza, se si considera, ad esempio, di usare il bagging e il boosting con gli alberi come discenti deboli, il modo migliore di usare è alberi piccoli / corti con boosting e alberi molto dettagliati con bagging. Questo è il motivo per cui molto spesso una procedura di potenziamento utilizza un moncone decisionale come discente debole, che è l'albero più corto possibile (una singola condizione if su una singola dimensione). Questo moncone decisionale è molto stabile, quindi ha una varianza molto bassa.

Non vedo alcun motivo per usare gli alberi con procedure di potenziamento. Tuttavia, gli alberi corti sono semplici, facili da implementare e facili da capire. Tuttavia, penso che per avere successo con una procedura di potenziamento, il tuo discente debole deve avere una bassa varianza, deve essere rigido, con pochissimi gradi di libertà. Ad esempio, non vedo il punto di avere una rete neurale come discente debole.

Inoltre, è necessario notare che per alcuni tipi di procedure di potenziamento, ad esempio il potenziamento del gradiente, Breiman ha scoperto che se lo studente debole è un albero, una certa ottimizzazione nel modo in cui può essere fatto il potenziamento. Quindi abbiamo alberi che aumentano il gradiente. C'è una bella esposizione di potenziamento nel libro ESTL.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.