Come scegliere il numero di alberi in un modello di regressione potenziato generalizzato?


11

Esiste una strategia per scegliere il numero di alberi in un GBM? Specificamente, l' ntreesargomento R's gbmfunzione.

Non vedo perché non dovresti impostare ntreesil valore ragionevole più alto. Ho notato che un numero maggiore di alberi riduce chiaramente la variabilità dei risultati di più GBM. Non credo che un elevato numero di alberi porterebbe a un eccesso di adattamento.

qualche idea?

Risposte:


3

Questo è GBM:

" Non credo che ... " è stata la prima parte pericolosa di molte frasi.

Abbastanza buono non ha senso senza una misura di bontà, una rubrica.

Quali sono le misure di bontà per qualsiasi altro metodo?

  • Differenza tra modello e dati (sse, ...)
  • Divergenza di errore in un set di controllo (errore di allenamento vs. errore di prova)
  • Conteggio dei parametri per il conteggio dei campioni (la maggior parte delle persone come 5 campioni per parametro o 30 campioni per parametro)
  • Convalida incrociata (metodi ensemble sulla divergenza dei test di errore)

Come una rete neurale o spline, è possibile eseguire un'interpolazione lineare a tratti sui dati e ottenere un modello che non può essere generalizzato. È necessario rinunciare ad alcuni degli "errori bassi" in cambio di applicabilità generale: generalizzazione.

Più collegamenti:


2

Ho trovato alcune informazioni sul problema: http://cran.r-project.org/web/packages/dismo/vignettes/brt.pdf

La gbm.stepfunzione può essere utilizzata per determinare il numero ottimale di alberi. Non sono ancora sicuro di cosa faccia aumentare la devianza del modello dopo un certo numero di alberi, quindi sono ancora disposto ad accettare una risposta che risponda a questa parte della domanda!


2
Il sovradimensionamento provoca l'aumento. La maggior parte dei buoni metodi crea un set di controllo e lo usa per testare il modello, ma non per aggiornare il modello. Ciò consente di rilevare l'insorgenza di un eccesso di vestibilità.
EngrStudent,

0

Questa è la guida operativa per aumentare gli alberi di regressione da Elith et al .: http://onlinelibrary.wiley.com/doi/10.1111/j.1365-2656.2008.01390.x/full Molto utile!

Dovresti usare almeno 1000 alberi. Per quanto ho capito, dovresti usare la combinazione di tasso di apprendimento, complessità degli alberi e numero di alberi che raggiunge l'errore di previsione minimo. Valori più bassi del tasso di apprendimento comportano un rischio di allenamento maggiore per lo stesso numero di iterazioni, mentre ogni iterazione riduce il rischio di allenamento. Se il numero di alberi è abbastanza grande, il rischio può essere reso arbitrariamente piccolo (vedi: Hastie et al., 2001, "Gli elementi di apprendimento statistico, Data Mining, Inferenza e Previsione" ).


È vero che Elith et al. suggerire come regola empirica di utilizzare 1000 alberi. Tuttavia, questo si basa su un'analisi dettagliata della stabilità predittiva per il set di dati specifico utilizzato nel documento. Sembra improbabile che lo stesso numero funzioni per qualsiasi set di dati possibile. Forse potresti ampliare un po 'la tua risposta fornendo alcuni dettagli sull'analisi eseguita, in particolare nell'Appendice S1.
DeltaIV

0

Come è comune in alcuni algoritmi di apprendimento automatico, il potenziamento è soggetto al compromesso della variazione di polarizzazione per quanto riguarda il numero di alberi. Parlando in modo approssimativo, questo compromesso ti dice che: (i) i modelli deboli tendono ad avere un'inclinazione elevata e una bassa varianza: sono troppo rigidi per acquisire la variabilità nel set di dati di allenamento, quindi non funzioneranno bene nemmeno nel set di test (test alto errore) (ii) i modelli molto forti tendono ad avere un basso pregiudizio e una varianza elevata: sono troppo flessibili e si adattano troppo al set di allenamento, quindi nel set di test (poiché i punti dati sono diversi dal set di allenamento), non funzioneranno bene (errore di test elevato)

Il concetto di Potenziamento degli alberi è iniziare con alberi poco profondi (modelli deboli) e continuare ad aggiungere altri alberi poco profondi che provano a correggere le debolezze degli alberi precedenti. Mentre esegui questo processo, l'errore del test tende a diminuire (perché il modello complessivo diventa più flessibile / potente). Tuttavia, se si aggiungono troppi di quegli alberi, si inizia a sovrastimare i dati di allenamento e quindi aumenta l'errore di test. La convalida incrociata aiuta a trovare il punto debole

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.