Dovrebbe essere ridimensionato un vettore caldo con attributi numerici


20

Nel caso di avere una combinazione di attributi categorici e numerici, di solito converto gli attributi categorici in vettori caldi. La mia domanda è: lascio i vettori così come sono e ridimensiono gli attributi numerici attraverso la standardizzazione / normalizzazione, o dovrei ridimensionare i vettori caldi insieme agli attributi numerici?

Risposte:


11

Una volta convertiti in forma numerica, i modelli non rispondono in modo diverso alle colonne con una codifica a caldo rispetto a qualsiasi altro dato numerico. Quindi c'è un chiaro precedente per normalizzare i valori {0,1} se lo stai facendo per qualsiasi motivo per preparare altre colonne.

L'effetto di ciò dipenderà dalla classe del modello e dal tipo di normalizzazione che applichi, ma ho notato alcuni (piccoli) miglioramenti nel ridimensionamento a 0, std 1 per dati categoriali con codifica a caldo, durante l'allenamento delle reti neurali.

Potrebbe fare la differenza anche per le classi del modello basate su metriche di distanza.

Sfortunatamente, come la maggior parte di questo tipo di scelte, spesso devi provare entrambi gli approcci e prendere quello con la migliore metrica.


1
La formulazione non era chiara. Stai dicendo che normalizzi solo le colonne con codifica a caldo solo se hai normalizzato colonne non ohe?
Info5ek,

@ Info5ek: sto dicendo che potrebbe essere meglio normalizzare le colonne con una codifica a caldo e se lo stai già facendo per altre colonne, puoi anche provarlo. Non ci sono regole fisse per questo, troppo dipende dal problema attuale.
Neil Slater,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.