Ho un set di dati con 330 campioni e 27 funzionalità per ogni campione, con un problema di classe binaria per la regressione logistica.
Secondo la "regola se dieci" ho bisogno di almeno 10 eventi per ogni funzione da includere. Tuttavia, ho un set di dati sbilanciato, con il 20% di classe positiva e l'80% di classe negativa.
Ciò mi dà solo 70 eventi, consentendo di includere solo circa 7/8 funzionalità nel modello logistico.
Vorrei valutare tutte le funzionalità come predittori, non desidero selezionare manualmente alcuna funzionalità.
Quindi cosa suggeriresti? Devo creare tutte le 7 possibili combinazioni di funzioni? Devo valutare ciascuna caratteristica da sola con un modello di associazione e quindi scegliere solo le migliori per un modello finale?
Sono anche curioso di gestire le caratteristiche categoriche e continue, posso mescolarle? Se ho un [0-1] categorico e un [0-100] continuo, dovrei normalizzare?
Attualmente sto lavorando con Python.
Grazie mille per il vostro aiuto!