Alberi decisionali e regressione - I valori previsti possono essere al di fuori dell'intervallo dei dati di allenamento?


11

Quando si tratta di alberi decisionali, il valore previsto può essere al di fuori dell'intervallo dei dati di addestramento?

Ad esempio, se l'intervallo del set di dati di allenamento della variabile target è 0-100, quando generi il mio modello e lo applico a qualcos'altro, i miei valori possono essere -5? o 150?

Dato che la mia comprensione della regressione dell'albero decisionale è che si tratta ancora di una regola - progressione sinistra / destra e che nella parte inferiore dell'albero nel set di addestramento non potrà mai vedere un valore al di fuori di un certo intervallo, non sarà mai in grado di prevederlo?


1
Per una domanda simile sugli alberi a gradiente elevato
Adrian

Risposte:


10

Hai perfettamente ragione: gli alberi decisionali classici non possono prevedere valori al di fuori dell'intervallo storicamente osservato. Non estrapoleranno.

Lo stesso vale per le foreste casuali.

Teoricamente, a volte vedi discussioni su architetture un po 'più elaborate (botaniche?), In cui le foglie dell'albero non danno un singolo valore , ma contengono una semplice regressione , ad esempio, regredendo la variabile dipendente su una particolare variabile numerica indipendente. Navigare attraverso l'albero ti darebbe una serie di regole su quale IV numerico su cui regredire il DV in quale caso. In tal caso, questa regressione di "livello inferiore" potrebbe essere estrapolata per produrre valori non ancora osservati.

Tuttavia, non credo che le librerie standard di machine learning offrano questa struttura un po 'più complessa (di recente l'ho cercato attraverso le CRAN Task Views per R), anche se in realtà non dovrebbe esserci nulla di complesso. Potresti essere in grado di implementare il tuo albero contenente regressioni nelle foglie.


1
Ho letto scarsamente di mobForest che supporta la regressione fogliare in R, stats.stackexchange.com/questions/48475/mobforest-r-package
Soren Havelund Welling

1
@SorenHavelundWelling: sembra interessante. Grazie per il puntatore!
Stephan Kolassa,

1
Uno dei primi algoritmi a fornire modelli di regressione lineare nelle foglie di un albero è stato M5 di Quinlan, una approssimazione del quale è disponibile in M5P () in Weka (interfacciato in R attraverso RWeka). Un algoritmo imparziale per il problema, chiamato GUIDE, è stato inizialmente suggerito da Loh. I binari per il suo pacchetto autonomo sono sul suo sito web. Infine, il nostro algoritmo di partizionamento ricorsivo basato sul modello (MOB) comprende vari modelli di questo tipo. È disponibile nel pacchetto R partykit: mob () è lo strumento generico e lmtree () e glmtree () sono il suo adattamento agli alberi con modelli lineari (generalizzati) nelle foglie.
Achim Zeileis,


1
Solo un avvertimento che mobForest è tornato su CRAN: cran.r-project.org/web/packages/mobForest/index.html
mkt -

6

Dai un'occhiata anche a cubista nel pacchetto del cursore. Crea regressioni lineari nei nodi terminali e può estrapolare previsioni sopra e sotto l'intervallo dei valori di risposta nei dati di addestramento. I nodi terminali possono anche essere mediati sulla base dei vicini più vicini forniti come iperparametro, quindi ha il potenziale per fornire previsioni estremamente convalidate e incrociate.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.