Per farla breve : fai quello che ha detto @untitledprogrammer, prova entrambi i modelli e convalida incrociata per aiutarti a sceglierne uno.
Sia gli alberi decisionali (a seconda dell'implementazione, ad es. C4.5) che la regressione logistica dovrebbero essere in grado di gestire correttamente dati continui e categorici. Per la regressione logistica, ti consigliamo di falsificare il codice delle variabili categoriali .
Come accennato a @untitledprogrammer, è difficile sapere a priori quale tecnica sarà meglio basata semplicemente sui tipi di funzionalità che hai, continue o meno. Dipende davvero dal tuo problema specifico e dai dati che hai. (Vedi Nessun teorema del pranzo libero )
Tieni presente, tuttavia, che un modello di regressione logistica sta cercando un singolo limite di decisione lineare nel tuo spazio delle caratteristiche, mentre un albero decisionale essenzialmente sta partizionando il tuo spazio delle caratteristiche in semispazi usando i limiti di decisione lineari allineati agli assi . L'effetto netto è che hai un limite di decisione non lineare, forse più di uno.
Questo è utile quando i punti dati non sono facilmente separati da un singolo iperpiano, ma d'altra parte, gli alberi delle decisioni sono così flessibili che possono essere inclini a un eccesso di adattamento. Per combattere questo, puoi provare a potare. La regressione logistica tende ad essere meno suscettibile (ma non immune!) Al sovradimensionamento.
Infine, un'altra cosa da considerare è che gli alberi decisionali possono automaticamente tenere conto delle interazioni tra variabili, ad es x yXy
Quindi devi chiederti:
- che tipo di confine decisionale ha più senso nel tuo problema particolare?
- come vuoi bilanciare distorsione e varianza?
- ci sono interazioni tra le mie funzionalità?
Ovviamente, è sempre una buona idea provare entrambi i modelli e fare la validazione incrociata. Questo ti aiuterà a scoprire quale è più probabile che abbia un migliore errore di generalizzazione.