Quando gli algoritmi ML, ad esempio Vowpal Wabbit o alcune delle macchine di fattorizzazione che vincono le competizioni di click through rate ( Kaggle ), menzionano che le funzionalità sono "hash", cosa significa in realtà per il modello? Diciamo che esiste una variabile che rappresenta l'ID di un'aggiunta di Internet, che assume valori come '236BG231'. Quindi capisco che questa funzione è sottoposta a hash su un numero intero casuale. Ma la mia domanda è:
- È il numero intero ora utilizzato nel modello, come un numero intero (numerico) O
- il valore di hash in realtà è ancora trattato come una variabile categoriale e con una codifica a caldo? Quindi il trucco di hashing è solo per risparmiare spazio in qualche modo con dati di grandi dimensioni?