Alberi decisionali e regressione - I valori previsti possono essere al di fuori dell'intervallo dei dati di allenamento?

Quando si tratta di alberi decisionali, il valore previsto può essere al di fuori dell'intervallo dei dati di addestramento?

Ad esempio, se l'intervallo del set di dati di allenamento della variabile target è 0-100, quando generi il mio modello e lo applico a qualcos'altro, i miei valori possono essere -5? o 150?

Dato che la mia comprensione della regressione dell'albero decisionale è che si tratta ancora di una regola - progressione sinistra / destra e che nella parte inferiore dell'albero nel set di addestramento non potrà mai vedere un valore al di fuori di un certo intervallo, non sarà mai in grado di prevederlo?

— user3788557
fonte

Per una domanda simile sugli alberi a gradiente elevato

— Adrian

Risposte:

Hai perfettamente ragione: gli alberi decisionali classici non possono prevedere valori al di fuori dell'intervallo storicamente osservato. Non estrapoleranno.

Lo stesso vale per le foreste casuali.

Teoricamente, a volte vedi discussioni su architetture un po 'più elaborate (botaniche?), In cui le foglie dell'albero non danno un singolo valore , ma contengono una semplice regressione , ad esempio, regredendo la variabile dipendente su una particolare variabile numerica indipendente. Navigare attraverso l'albero ti darebbe una serie di regole su quale IV numerico su cui regredire il DV in quale caso. In tal caso, questa regressione di "livello inferiore" potrebbe essere estrapolata per produrre valori non ancora osservati.

Tuttavia, non credo che le librerie standard di machine learning offrano questa struttura un po 'più complessa (di recente l'ho cercato attraverso le CRAN Task Views per R), anche se in realtà non dovrebbe esserci nulla di complesso. Potresti essere in grado di implementare il tuo albero contenente regressioni nelle foglie.

— Stephan Kolassa
fonte

Ho letto scarsamente di mobForest che supporta la regressione fogliare in R, stats.stackexchange.com/questions/48475/mobforest-r-package

— Soren Havelund Welling

@SorenHavelundWelling: sembra interessante. Grazie per il puntatore!

— Stephan Kolassa,

Uno dei primi algoritmi a fornire modelli di regressione lineare nelle foglie di un albero è stato M5 di Quinlan, una approssimazione del quale è disponibile in M5P () in Weka (interfacciato in R attraverso RWeka). Un algoritmo imparziale per il problema, chiamato GUIDE, è stato inizialmente suggerito da Loh. I binari per il suo pacchetto autonomo sono sul suo sito web. Infine, il nostro algoritmo di partizionamento ricorsivo basato sul modello (MOB) comprende vari modelli di questo tipo. È disponibile nel pacchetto R partykit: mob () è lo strumento generico e lmtree () e glmtree () sono il suo adattamento agli alberi con modelli lineari (generalizzati) nelle foglie.

— Achim Zeileis,

@SorenHavelundWelling: sfortunatamente, il mobForestpacchetto è stato rimosso da CRAN . Dò un'occhiata al partykitpacchetto che Achim Zeileis ha raccomandato .

— Stephan Kolassa,

Solo un avvertimento che mobForest è tornato su CRAN: cran.r-project.org/web/packages/mobForest/index.html

— mkt -

Dai un'occhiata anche a cubista nel pacchetto del cursore. Crea regressioni lineari nei nodi terminali e può estrapolare previsioni sopra e sotto l'intervallo dei valori di risposta nei dati di addestramento. I nodi terminali possono anche essere mediati sulla base dei vicini più vicini forniti come iperparametro, quindi ha il potenziale per fornire previsioni estremamente convalidate e incrociate.

— Scott Worland
fonte