Ho un problema di classificazione con dati sia categorici che numerici. Il problema che sto affrontando è che i miei dati categorici non sono corretti, ciò significa che il nuovo candidato di cui desidero prevedere l'etichetta potrebbe avere una nuova categoria che non è stata osservata in precedenza.
Ad esempio, se i miei dati categorici era sex
, gli unici possibili etichette sarebbe female
, male
e other
, non importa quale. Tuttavia, la mia variabile categorica è city
che potrebbe accadere che la persona che sto cercando di prevedere abbia una nuova città che il mio classificatore non ha mai visto.
Mi chiedo se c'è un modo per fare la classificazione in questi termini o se dovrei ripetere la formazione considerando questi nuovi dati categorici.
city
in un numero basato su alcune funzioni? Incity' = f(latitude, longitude)
questo modo, puoi creare un nuovo valore per qualsiasi città