Ho un set di dati con 20000 campioni, ognuno con 12 caratteristiche diverse. Ciascun campione appartiene alla categoria 0 o 1. Voglio formare una rete neurale e una foresta decisionale per classificare i campioni in modo da poter confrontare i risultati e entrambe le tecniche.
La prima cosa su cui mi sono imbattuto è la corretta normalizzazione dei dati. Una caratteristica è nell'intervallo , un'altra in e c'è una caratteristica che assume principalmente il valore 8 e talvolta 7. Quindi, come ho letto in diverse fonti, una corretta normalizzazione dei dati di input è fondamentale per le reti neurali. Come ho scoperto, ci sono molti modi possibili per normalizzare i dati, ad esempio:
- Normalizzazione Min-Max : l'intervallo di input viene trasformato linearmente nell'intervallo (o in alternativa , importa?)
- Normalizzazione del punteggio Z : i dati vengono trasformati per avere zero media e varianza unitaria:
Quale normalizzazione dovrei scegliere? La normalizzazione è necessaria anche per le foreste decisionali? Con la normalizzazione Z-Score, le diverse caratteristiche dei miei dati di test non si trovano nello stesso intervallo. Potrebbe essere un problema? Ogni funzionalità dovrebbe essere normalizzata con lo stesso algoritmo, in modo che io decida di utilizzare Min-Max per tutte le funzionalità o Z-Score per tutte le funzionalità?
Esistono combinazioni in cui i dati sono mappati su e hanno anche una media zero (il che implicherebbe una trasformazione non lineare dei dati e quindi un cambiamento nella varianza e in altre caratteristiche dei dati di input).
Mi sento un po 'perso perché non riesco a trovare riferimenti che rispondano a queste domande.