Gli alberi di regressione possono prevedere continuamente?


11

Supponiamo che io abbia una funzione regolare come . Ho un set di addestramento e, ovviamente, non conosco anche se posso valutare dove voglio.f(x,y)=x2+y2D{((x,y),f(x,y))|(x,y)R2}ff

Gli alberi di regressione sono in grado di trovare un modello uniforme della funzione (quindi un piccolo cambiamento nell'input dovrebbe dare solo un piccolo cambiamento nell'output)?

Da quello che ho letto in Lecture 10: Regression Trees mi sembra che gli alberi di regressione fondamentalmente mettano i valori della funzione in bin:

Per gli alberi di regressione classici, il modello in ogni cella è solo una stima costante di Y.

Mentre scrivono "classico" credo che esista una variante in cui le cellule fanno qualcosa di più interessante?

Risposte:


2

Gli alberi di regressione, in particolare l'aumento del gradiente (essenzialmente molti alberi), tendono a fare molto bene su previsioni continue, spesso sovraperformando i modelli che sono veramente continui come la regressione lineare quando. Ciò è particolarmente vero quando ci sono interazioni variabili e quando si dispone di un set di dati sufficientemente grande (oltre 10.000 record), quindi è meno probabile un overfitting. Se il tuo obiettivo principale è semplicemente il potere predittivo, allora se il modello è continuo al 100% o pseudo continuo dovrebbe essere irrilevante. Se rendere i tuoi alberi di regressione più continui migliora la potenza predittiva del campione, puoi semplicemente aumentare la profondità degli alberi o aggiungere più alberi.


1
Sono d'accordo. I miei alberi potenziati quasi sempre superano molto attentamente i GLM realizzati con cura e ottimizzati. Certo, perdi l'interpretazione quando ottieni potere predittivo.
Prooffreader

0

Negli alberi di regressione classici hai un valore nella foglia, ma nella foglia puoi avere un modello di regressione lineare, controlla questo ticket.

Puoi anche utilizzare un insieme di alberi (Foresta casuale o Macchine per aumentare la pendenza) per avere un valore di uscita continuo.


0

Se estendi leggermente la domanda per includere tecniche generali di aumento del gradiente (in contrasto con il caso speciale degli alberi di regressione potenziata), la risposta è sì. L'aumento del gradiente è stato usato con successo come alternativa alla selezione delle variabili. Un buon esempio è il pacchetto mboost . La chiave è che la classe di studenti di base utilizzata per il potenziamento è costituita da modelli continui con cui iniziare. Questo tutorial descrive le classi tipiche degli studenti di base come segue:

I modelli di apprendisti di base comunemente usati possono essere classificati in tre categorie distinte: modelli lineari, modelli lisci e alberi decisionali. Esistono anche numerosi altri modelli, come i campi markov random (Dietterich et al., 2004) o wavelets (Viola e Jones, 2001), ma la loro applicazione si pone per compiti pratici relativamente specifici.

Si noti che menziona in particolare le wavelet. Alberi e wavelet sono stati precedentemente combinati con successo in wavelet a base di alberi.


Quali sono gli studenti di base continui nel potenziamento del gradiente? Se la risposta è un albero decisionale, potresti spiegare come sono continui?
Martin Thoma,

Ho aggiornato la mia risposta. La chiave sta nell'usare predittori continui simili ad alberi.
user3605620
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.