Diciamo che voglio creare un classificatore logistico per un film M. Le mie caratteristiche sarebbero qualcosa come l'età della persona, il genere, l'occupazione, la posizione. Quindi il set di allenamento sarebbe qualcosa del tipo:
- Età Genere Occupazione Luogo Mi piace (1) / Non mi piace (0)
- 23 M Software US 1
- 24 F Doctor UK 0
e così via .... Ora la mia domanda è come devo ridimensionare e rappresentare le mie caratteristiche. In un modo ho pensato: dividi l'età per fasce d'età, quindi 18-25, 25-35, 35 sopra, sesso come M, F, località come Stati Uniti, Regno Unito, Altri. Ora crea una funzione binaria per tutti questi valori, quindi age avrà 3 caratteristiche binarie ciascuna corrispondente a una fascia d'età e così via. Quindi, un maschio di 28 anni proveniente dagli Stati Uniti sarebbe rappresentato come 010 10 100 (010-> fascia d'età 25-35, 10 -> maschio, 100 -> USA)
Quale potrebbe essere il modo migliore per rappresentare le funzionalità qui? Inoltre, ho notato in alcuni esempi di sklearn che tutte le funzionalità sono state ridimensionate / normalizzate in qualche modo, ad esempio il genere è rappresentato da due valori, 0,0045 e -,0,0045 per maschio e femmina. Non ho idea di come eseguire il ridimensionamento / mormalizzazione in questo modo?