Attualmente sto lavorando a un modello di regressione logistica per la genomica. Uno dei campi di input che voglio includere come covariata ègenes
. Esistono circa 24.000 geni noti. Ci sono molte caratteristiche con questo livello di variabilità nella biologia computazionale e sono necessarie centinaia di migliaia di campioni.
- Se io
LabelEncoder()
quei geni 24K - e poi
OneHotEncoder()
loro ...
24.000 colonne renderanno irragionevoli i tempi di allenamento delle mie macchine fotografiche per una CPU i7 quad-core a 2,2 GHz?
In tal caso, esiste un approccio diverso alla codifica che posso adottare con questo?
Dovrei in qualche modo provare a dedicare un livello del mio modello a questa funzione?
Questo significa che ho bisogno di nodi di input 24K?