È essenziale eseguire la normalizzazione per SVM e Random Forest?

29

Ogni dimensione delle mie caratteristiche ha una gamma di valori diversa. Voglio sapere se è essenziale normalizzare questo set di dati.

— user22062
fonte

29

La risposta alla tua domanda dipende dalla funzione di somiglianza / distanza che prevedi di utilizzare (nelle SVM). Se è una distanza euclidea semplice (non ponderata), se non normalizzi i tuoi dati stai inconsapevolmente dando ad alcune funzionalità più importanza di altre.

Ad esempio, se la tua prima dimensione è compresa tra 0 e 10 e la seconda dimensione tra 0 e 1, una differenza di 1 nella prima dimensione (solo un decimo dell'intervallo) contribuisce tanto nel calcolo della distanza quanto due valori selvaggiamente diversi in la seconda dimensione (0 e 1). Così facendo, stai esagerando piccole differenze nella prima dimensione. Ovviamente potresti trovare una funzione di distanza personalizzata o ponderare le tue dimensioni secondo la stima di un esperto, ma questo porterà a molti parametri sintonizzabili a seconda della dimensionalità dei tuoi dati. In questo caso, la normalizzazione è un percorso più semplice (anche se non necessariamente ideale) perché puoi almeno iniziare.

Infine, sempre per gli SVM, un'altra cosa che puoi fare è inventare una funzione di somiglianza piuttosto che una funzione di distanza e collegarla come un kernel (tecnicamente questa funzione deve generare matrici definite positive). Questa funzione può essere costruita come preferisci e può tenere conto della disparità di funzioni.

D'altra parte, per le foreste casuali, poiché una caratteristica non viene mai confrontata in grandezza con altre caratteristiche, le gamme non contano. È solo la gamma di una caratteristica che è divisa in ogni fase.

— Ansari
fonte

12

Random Forest è invariante alle trasformazioni monotoniche delle singole caratteristiche. Le traduzioni o il ridimensionamento per funzionalità non cambieranno nulla per la foresta casuale. SVM probabilmente farà di meglio se le tue caratteristiche hanno all'incirca la stessa grandezza, a meno che tu non sappia apriori che alcune caratteristiche sono molto più importanti di altre, nel qual caso è giusto che abbia una grandezza maggiore.

— rrenaud
fonte