Quando si codificano le caratteristiche categoriche per la regressione lineare, esiste una regola: il numero di manichini dovrebbe essere uno in meno del numero totale di livelli (per evitare la collinearità).
Esiste una regola simile per gli alberi decisionali (in sacchi, potenziati)? Lo sto chiedendo perché una pratica standard in Python sembra essere quella di espandere i n
livelli in n
manichini (sklearns ' OneHotEncoder
o Panda' pd.get_dummies
) che mi sembrano non ottimali.
Quali consigli suggeriresti come best practice per la codifica delle caratteristiche categoriche per gli alberi decisionali?
randomForest
sono codificate automaticamente, dovrei andare con in
manichini perché la collinearità non è un problema per RF?