Qualcuno può fornire un elenco di quali algoritmi richiederebbero che le caratteristiche categoriche siano codificate a una sola opzione e quali no?
AFAIU, deve fare di più con i dati particolari , meno con il particolare algoritmo . In particolare, dipende dal fatto che ci sia o meno un ordine significativo nelle categorie.
Considera due casi. Nel primo hai le categorie cattivo, meh, buono , e nel secondo hai mela, arancia, pera . C'è un ordine naturale nel primo caso, perché probabilmente il meh è tra cattivo e buono , ma probabilmente non succede nulla di simile in mela, arancia, pera .
Se eviti la codifica one-hot per il primo caso, stai "perdendo" le informazioni sull'ordine. Se usi la codifica one-hot per il secondo caso, stai assegnando un ordine alle categorie che non è naturalmente vero.
Lo faccio ogni volta che l'algoritmo utilizza una metrica di distanza per calcolare la somiglianza.
Perché? Supponiamo che una delle funzioni sia categoricamente negativa, meh, good e hai tre istanze, 1, 2 e 3, dove sono identiche, tranne per il fatto che 1 è cattivo , 2 è meh e 3 è buono. Probabilmente vuoi esprimere all'algoritmo che 1 è più simile a 2 che a 3.