Molti algoritmi di machine learning, ad esempio le reti neurali, prevedono di gestire i numeri. Pertanto, quando si dispone di dati categorici, è necessario convertirli. Per categorico intendo, ad esempio:
Marche di auto: Audi, BMW, Chevrolet ... ID utente: 1, 25, 26, 28 ...
Anche se gli ID utente sono numeri, sono solo etichette e non significano nulla in termini di continuità, come l'età o la somma di denaro.
Quindi, l'approccio di base sembra utilizzare i vettori binari per codificare le categorie:
Audi: 1, 0, 0 ... BMW: 0, 1, 0 ... Chevrolet: 0, 0, 1 ...
Va bene quando ci sono poche categorie, ma oltre a ciò sembra un po 'inefficiente. Ad esempio, quando hai 10.000 ID utente da codificare, sono 10 000 funzioni.
La domanda è: esiste un modo migliore? Forse uno che coinvolge probabilità?