Sono nuovo del data mining e sto cercando di formare un albero decisionale su un set di dati che è altamente sbilanciato. Tuttavia, sto riscontrando problemi con scarsa precisione predittiva.
I dati sono costituiti dagli studenti che studiano i corsi e la variabile di classe è lo stato del corso che ha due valori: Ritirato o Corrente.
- Età
- Razza
- Genere
- Corso
... - Stato del corso
Nel set di dati ci sono molte più istanze correnti rispetto a quelle ritirate. Le istanze ritirate rappresentano solo il 2% delle istanze totali.
Voglio essere in grado di costruire un modello in grado di prevedere la probabilità che una persona si ritiri in futuro. Tuttavia, quando si testa il modello rispetto ai dati di addestramento, l'accuratezza del modello è terribile.
Ho avuto problemi simili con gli alberi delle decisioni in cui i dati sono dominati da una o due classi.
Quale approccio posso usare per risolvere questo problema e creare un classificatore più accurato?