Riconciliazione degli alberi di regressione potenziata (BRT), modelli potenziati generalizzati (GBM) e macchina per il potenziamento del gradiente (GBM)


9

Domande:

  1. Qual è la differenza (s) tra alberi di regressione potenziata (BRT) e modelli potenziati generalizzati (GBM)? Possono essere usati in modo intercambiabile? L'una è una forma specifica dell'altra?
  2. Perché Ridgeway ha usato la frase "Generalized Boosted Regression Models" (GBM), per descrivere ciò che Friedman aveva precedentemente proposto come "Gradient Boosting Machine" (GBM)? Questi due acronimi sono identici, descrivono la stessa cosa, ma derivano da frasi diverse.

Sfondo:

Ho difficoltà a determinare in che modo differiscono i termini BRT e GBM. Da quello che ho capito entrambi sono termini per descrivere alberi di classificazione e regressione che hanno incorporato la stocastica attraverso una sorta di potenziamento (es. Insaccamento, bootstrap, validazione incrociata). Inoltre, da quello che raccolgo il termine GBM è stato coniato per la prima volta da Friedman (2001) nel suo articolo "Approssimazione di funzioni avide: una macchina per aumentare il gradiente". Ridgeway ha quindi implementato la procedura descritta da Friedman nel 2006 nel suo pacchetto "Generalized Boosted Regression Models" (GBM). Nel mio campo (ecologia) Elith et al. (2008) è stato il primo a dimostrare il gbmpacchetto di Ridgeway per la modellizzazione della distribuzione delle specie. Tuttavia, gli autori di Elith et al. usa il termine "albero di regressione potenziato" (BRT) per descrivere Friedman e Ridgeway "

Sono confuso sul fatto che questi termini possano essere usati in modo intercambiabile? È un po 'confuso che un autore utilizzi lo stesso acronimo (da una frase diversa) per descrivere la stessa teoria proposta da un autore precedente. È anche confuso che il terzo autore abbia usato un termine completamente diverso per descrivere questa teoria in termini ecologici.

Il meglio che posso inventare è che i BRT sono una forma specifica di GBM in cui la distribuzione è binomiale, ma non ne sono sicuro.

Elith et al. definire alberi di regressione potenziati come questo ... "Gli alberi di regressione potenziati combinano i punti di forza di due algoritmi: alberi di regressione (modelli che mettono in relazione una risposta ai loro predittori mediante divisioni binarie ricorsive) e potenziamento (un metodo adattivo per combinare molti modelli semplici per migliorare le prestazioni predittive ). Il modello BRT finale può essere inteso come un modello di regressione additiva in cui i singoli termini sono alberi semplici, montati in una maniera avanzata e graduale "(Elith et al. 2008).


1
Non posso entrare nelle teste degli autori e dirtelo, ma sembra plausibile che i nomi diano tutto. Il potenziamento è un metodo che utilizza una sequenza di discenti deboli. Il metodo per antonomasia sarebbe "piccoli alberi" come i ceppi. Se si aumenta un modello di albero di regressione, si ottengono alberi di regressione potenziati. A priori, si potrebbero potenziare altri metodi, compresi i metodi categorici, e restituire qualcosa chiamato una macchina per aumentare il gradiente che non era un albero di regressione potenziato.
Meh,

Non ricordo i dettagli con la mano, ma un libro che ho letto ha sottolineato come se si usassero ceppi per gli alberi il risultato somigliava molto a un gam.
Meh,

Risposte:


15

Come @aginensky ha menzionato nel thread dei commenti, è impossibile entrare nella testa dell'autore, ma BRT è molto probabilmente semplicemente una descrizione più chiara del gbmprocesso di modellazione che è, perdonami per aver dichiarato gli alberi di classificazione e regressione ovvi e potenziati. E dal momento che hai chiesto informazioni su potenziamenti, gradienti e alberi di regressione, ecco le mie semplici spiegazioni in inglese dei termini. Cordiali saluti, CV non è un metodo di potenziamento ma piuttosto un metodo per aiutare a identificare i parametri ottimali del modello attraverso il campionamento ripetuto. Vedi qui per alcune eccellenti spiegazioni del processo.

Il potenziamento è un tipo di metodo di ensemble . I metodi dell'insieme si riferiscono a una raccolta di metodi con cui vengono effettuate le previsioni finali aggregando le previsioni da un numero di singoli modelli. Potenziare, insaccare e impilare sono alcuni metodi di ensemble ampiamente implementati. L'impilamento comporta l'adattamento di un numero di diversi modelli singolarmente (di qualsiasi struttura di propria scelta) e quindi la loro combinazione in un singolo modello lineare. Questo viene fatto adattando le previsioni dei singoli modelli alla variabile dipendente. LOOCV SSE viene normalmente utilizzato per determinare i coefficienti di regressione e ogni modello viene trattato come una funzione di base (a mio avviso, questo è molto, molto simile al GAM). Allo stesso modo, insaccamentocomporta l'adattamento di una serie di modelli strutturati in modo simile ai campioni avviati. A rischio di affermare ancora una volta l'ovvio, accatastamento e insaccamento sono metodi di ensemble paralleli.

Il potenziamento , tuttavia, è un metodo sequenziale. Friedman e Ridgeway descrivono entrambi il processo algoritmico nei loro articoli, quindi non lo inserirò qui solo in questo secondo, ma la semplice versione inglese (e in qualche modo semplificata) è che si adatta un modello dopo l'altro, con ogni modello successivo che cerca di minimizzare residui ponderati per gli errori del modello precedente (il parametro di restringimento è il peso assegnato all'errore residuo di ciascuna previsione dalla precedente iterazione e minore è il valore che si può permettere di avere, meglio è). In senso astratto, puoi pensare di potenziare come un processo di apprendimento molto simile all'uomo in cui applichiamo esperienze passate a nuove iterazioni di compiti che dobbiamo svolgere.

Ora, la parte gradiente dell'intero processo deriva dal metodo utilizzato per determinare il numero ottimale di modelli (indicati come iterazioni nella gbmdocumentazione) da utilizzare per la previsione al fine di evitare un eccesso di adattamento. Allenamento GBM (nero) e errore CV (verde) funzioni di perdita

Come puoi vedere dal visual sopra (questa era un'applicazione di classificazione, ma lo stesso vale per la regressione) l'errore CV diminuisce abbastanza rapidamente all'inizio poiché l'algoritmo seleziona quei modelli che porteranno alla caduta maggiore dell'errore CV prima di appiattirsi e risalire di nuovo quando l'ensemble inizia a vestirsi troppo. Il numero di iterazione ottimale è quello corrispondente al punto di flesso della funzione di errore CV (gradiente di funzione uguale a 0), che è convenientemente illustrato dalla linea tratteggiata blu.

L' gbmimplementazione di Ridgeway utilizza alberi di classificazione e regressione e anche se non posso pretendere di leggere la sua mente, immaginerei che la velocità e la facilità (per non parlare della loro solidità agli shenanigans di dati) con cui gli alberi possono adattarsi hanno avuto un effetto piuttosto significativo su la sua scelta della tecnica di modellazione. Detto questo, anche se potrei sbagliarmi, non riesco a immaginare un motivo strettamente teorico per cui praticamente qualsiasi altra tecnica di modellazione non avrebbe potuto essere implementata. Ancora una volta, non posso pretendere di conoscere la mente di Ridgeway, ma immagino la parte generalizzata digbmIl nome si riferisce alla moltitudine di potenziali applicazioni. Il pacchetto può essere utilizzato per eseguire la regressione (lineare, di Poisson e quantile), binomiale (utilizzando un numero di diverse funzioni di perdita) e classificazione multinomiale e analisi di sopravvivenza (o almeno calcolo della funzione di rischio se la distribuzione del coxph è indicativa).

Il documento di Elith sembra vagamente familiare (penso di essermi imbattuto nella scorsa estate mentre esaminavo metodi di visualizzazione compatibili con gbm) e, se la memoria serve bene, presentava un'estensione della gbmlibreria, concentrandosi sull'ottimizzazione automatica del modello per la regressione (come nella distribuzione gaussiana , non binomiali) e una migliore generazione della trama. Immagino che la nomenclatura RBT sia lì per aiutare a chiarire la natura della tecnica di modellazione, mentre GBM è più generale.

Spero che questo aiuti a chiarire alcune cose.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.