Quando si codificano le caratteristiche categoriche per la regressione lineare, esiste una regola: il numero di manichini dovrebbe essere uno in meno del numero totale di livelli (per evitare la collinearità).
Esiste una regola simile per gli alberi decisionali (in sacchi, potenziati)? Lo sto chiedendo perché una pratica standard in Python sembra essere quella di espandere i nlivelli in nmanichini (sklearns ' OneHotEncodero Panda' pd.get_dummies) che mi sembrano non ottimali.
Quali consigli suggeriresti come best practice per la codifica delle caratteristiche categoriche per gli alberi decisionali?
randomForestsono codificate automaticamente, dovrei andare con inmanichini perché la collinearità non è un problema per RF?