Albero decisionale o regressione logistica?


14

Sto lavorando a un problema di classificazione. Ho un set di dati contenente lo stesso numero di variabili categoriche e variabili continue. Come faccio a sapere quale tecnica utilizzare? tra un albero decisionale e una regressione logistica?

È giusto supporre che la regressione logistica sarà più adatta per la variabile continua e l'albero decisionale sarà più adatto per la variabile continua + categoriale?


Puoi aggiungere più dettagli come il numero di righe, il numero di colonne (anche quante categoriche / continue)?
Nitesh,

Ciao @Nitesh, ho 32 variabili di input + 1 variabile di destinazione. I dati sono vicini a 2,5 lakh per i dati di allenamento e dicono circa 1 lakh di dati di test. I dati di test sono dati fuori tempo.
Arun,

Risposte:


22

Per farla breve : fai quello che ha detto @untitledprogrammer, prova entrambi i modelli e convalida incrociata per aiutarti a sceglierne uno.

Sia gli alberi decisionali (a seconda dell'implementazione, ad es. C4.5) che la regressione logistica dovrebbero essere in grado di gestire correttamente dati continui e categorici. Per la regressione logistica, ti consigliamo di falsificare il codice delle variabili categoriali .

Come accennato a @untitledprogrammer, è difficile sapere a priori quale tecnica sarà meglio basata semplicemente sui tipi di funzionalità che hai, continue o meno. Dipende davvero dal tuo problema specifico e dai dati che hai. (Vedi Nessun teorema del pranzo libero )

Tieni presente, tuttavia, che un modello di regressione logistica sta cercando un singolo limite di decisione lineare nel tuo spazio delle caratteristiche, mentre un albero decisionale essenzialmente sta partizionando il tuo spazio delle caratteristiche in semispazi usando i limiti di decisione lineari allineati agli assi . L'effetto netto è che hai un limite di decisione non lineare, forse più di uno.

Questo è utile quando i punti dati non sono facilmente separati da un singolo iperpiano, ma d'altra parte, gli alberi delle decisioni sono così flessibili che possono essere inclini a un eccesso di adattamento. Per combattere questo, puoi provare a potare. La regressione logistica tende ad essere meno suscettibile (ma non immune!) Al sovradimensionamento.

Infine, un'altra cosa da considerare è che gli alberi decisionali possono automaticamente tenere conto delle interazioni tra variabili, ad es XyXy

Quindi devi chiederti:

  • che tipo di confine decisionale ha più senso nel tuo problema particolare?
  • come vuoi bilanciare distorsione e varianza?
  • ci sono interazioni tra le mie funzionalità?

Ovviamente, è sempre una buona idea provare entrambi i modelli e fare la validazione incrociata. Questo ti aiuterà a scoprire quale è più probabile che abbia un migliore errore di generalizzazione.


Esatto @Victor.
senza titolo,

@Victor Grazie mille per una spiegazione molto dettagliata.
Arun,

6

Prova a utilizzare sia l'albero di regressione che quello decisionale. Confronta l'efficienza di ogni tecnica usando una validazione incrociata di 10 volte. Attenersi a quello con maggiore efficienza. Sarebbe difficile giudicare quale metodo sarebbe più adatto semplicemente sapendo che il tuo set di dati è continuo e, o categorico.


1

Dipende molto dalla struttura della distribuzione sottostante dei tuoi dati. Se hai forti ragioni per credere che i dati si avvicinino a una distribuzione di Bernoulli, la regressione logistica multinomiale funzionerà bene e ti darà risultati interpretabili. Tuttavia, se esistono strutture non lineari nella distribuzione sottostante, è necessario considerare seriamente un metodo non parametrico.

Mentre potresti usare un albero decisionale come metodo non parametrico, potresti anche prendere in considerazione l'idea di generare una foresta casuale - questo essenzialmente genera un gran numero di singoli alberi decisionali da sottoinsiemi di dati e la classificazione finale è il voto agglomerato di tutti gli alberi . Una foresta casuale ti aiuta a dare un'idea della condivisione che ogni variabile predittore contribuisce alla risposta.

Un altro fattore da tenere a mente è l'interpretazione. Se stai solo cercando di classificare i dati, probabilmente non ti interessano le relazioni sottostanti tra le variabili esplicative e di risposta. Tuttavia, se sei interessato all'interpretazione dell'interpretazione, una regressione logistica multinomiale è molto più semplice da interpretare, i metodi parametrici in generale, poiché fanno ipotesi sulla distribuzione sottostante, ti raccontano relazioni interpretabili in modo più intuitivo.


0

Per utilizzare l'albero decisionale, è necessario trasformare la variabile continua in categoriale.

Un'altra cosa, la regressione logistica viene solitamente utilizzata per prevedere il risultato in base alla probabilità.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.