Ho un set di dati che ha un attributo di classe binaria. Ci sono 623 casi con classe +1 (positivo al cancro) e 101.671 casi con classe -1 (negativo al cancro).
Ho provato vari algoritmi (Naive Bayes, Random Forest, AODE, C4.5) e tutti hanno inaccettabili rapporti di falsi negativi. Random Forest ha la massima precisione di previsione complessiva (99,5%) e il più basso rapporto di falsi negativi, ma manca ancora il 79% delle classi positive (cioè non riesce a rilevare il 79% dei tumori maligni).
Qualche idea su come posso migliorare questa situazione?
Grazie!