Stavo cercando di usare le importazioni delle funzionalità dalle foreste casuali per eseguire alcune selezioni empiriche di funzionalità per un problema di regressione in cui tutte le funzionalità sono categoriche e molte hanno molti livelli (dell'ordine di 100-1000). Dato che la codifica one-hot crea una variabile fittizia per ogni livello, le importazioni delle funzionalità sono per ogni livello e non per ogni funzione (colonna). Qual è un buon modo per aggregare queste importazioni di funzionalità?
Ho pensato di sommare o ottenere l'importanza media per tutti i livelli di una funzione (probabilmente la prima sarà distorta verso quelle funzionalità con più livelli). Ci sono riferimenti su questo problema?
Cos'altro si può fare per ridurre il numero di funzioni? Sono a conoscenza del lazo di gruppo, non ho trovato nulla di facile da usare per scikit-learn.