Spiegazioni intuitive delle differenze tra Gradient Boosting Trees (GBM) e Adaboost


48

Sto cercando di capire le differenze tra GBM e Adaboost.

Questi sono ciò che ho capito finora:

  • Esistono entrambi algoritmi di potenziamento, che apprendono dagli errori del modello precedente e infine fanno una somma ponderata dei modelli.
  • GBM e Adaboost sono piuttosto simili, tranne per le loro funzioni di perdita.

Ma è ancora difficile per me prendere un'idea delle differenze tra loro. Qualcuno può darmi spiegazioni intuitive?

Risposte:


34

Ho scoperto che questa introduzione può fornire alcune spiegazioni intuitive.

  • In Gradient Boosting, le "carenze" (degli studenti deboli esistenti) sono identificate da gradienti .
  • In Adaboost, le "carenze" sono identificate da punti dati ad alto peso .

A mio avviso, la perdita esponenziale di Adaboost dà più pesi per quei campioni che si adattano peggio. Ad ogni modo, Adaboost è considerato un caso speciale di aumento del gradiente in termini di funzione di perdita, come mostrato nella storia del potenziamento del gradiente fornito nell'introduzione.

  1. Invent Adaboost, il primo algoritmo di potenziamento di successo [Freund et al., 1996, Freund e Schapire, 1997]
  2. Formulare Adaboost come discesa a gradiente con una speciale funzione di perdita [Breiman et al., 1998, Breiman, 1999]
  3. Generalizza Adaboost al Gradient Boosting per gestire una varietà di funzioni di perdita [Friedman et al., 2000, Friedman, 2001]

11

Una spiegazione intuitiva dell'algoritmo AdaBoost

Vorrei basarmi sull'eccellente risposta di @ Randel con un'illustrazione del seguente punto


  • In Adaboost, le "carenze" sono identificate da punti dati ad alto peso

Riepilogo di AdaBoost

solm(X) m=1,2,...,M

sol(X)=cartello(α1sol1(X)+α2sol2(X)+...αMsolM(X))=cartello(Σm=1Mαmsolm(X))
  • La previsione finale è una combinazione delle previsioni di tutti i classificatori attraverso un voto a maggioranza ponderata

  • αmsolm(X)

  • w1,w2,...,wNm
  • m=1wio=1/N

AdaBoost su un esempio di giocattolo

M=10

inserisci qui la descrizione dell'immagine

Visualizzazione della sequenza di discenti deboli e pesi campione

m=1,2 ...,6

inserisci qui la descrizione dell'immagine

Prima iterazione:

  • Il limite decisionale è molto semplice (lineare) poiché si tratta di apprendenti tessitori
  • Tutti i punti hanno le stesse dimensioni, come previsto
  • 6 punti blu si trovano nella regione rossa e sono classificati erroneamente

Seconda iterazione:

  • Il limite di decisione lineare è cambiato
  • I punti blu precedentemente classificati in modo errato sono ora più grandi (maggiore esempio_peso) e hanno influenzato il limite di decisione
  • 9 punti blu ora sono classificati erroneamente

Risultato finale dopo 10 iterazioni

αm

([1.041, 0.875, 0.837, 0.781, 1.04, 0.938 ...

Come previsto, la prima iterazione ha il coefficiente più grande in quanto è quella con il minor numero di classificazioni errate.

Prossimi passi

Una spiegazione intuitiva del potenziamento del gradiente - da completare

Fonti e ulteriori letture:

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.