Non so se questa è una pratica comune / migliore, ma è un altro punto di vista della questione.
Se hai, diciamo, una data, puoi considerare ogni campo come una "variabile di categoria" anziché una "variabile continua". Il giorno avrebbe un valore nell'insieme {1, 2 ..., 31}, il mese avrebbe un valore in {1, ..., 12} e, per l'anno, scegli un valore minimo e uno massimo e costruisci un set.
Quindi, poiché i valori numerici specifici di giorni, mesi e anni potrebbero non essere utili per trovare tendenze nei dati, utilizzare una rappresentazione binaria per codificare i valori numerici, essendo ogni bit una caratteristica. Ad esempio, il mese 5 sarebbe 0 0 0 0 1 0 0 0 0 0 0 0
(11 0 è un 1 in 5a posizione, ogni bit è una caratteristica).
Quindi, avendo, ad esempio, 10 anni nel "set di anni", una data verrebbe trasformata in un vettore di 43 caratteristiche (= 31 + 12 + 10). Usando "vettori sparsi", la quantità di funzionalità non dovrebbe essere un problema.
Qualcosa di simile potrebbe essere fatto per i dati temporali, il giorno della settimana, il giorno del mese ...
Tutto dipende dalla domanda a cui vuoi che il tuo modello di apprendimento automatico risponda.