Sono diventato in qualche modo un nichilista quando si tratta di classifiche di importanza variabile (nel contesto di modelli multivariati di ogni tipo).
Spesso nel corso del mio lavoro, mi viene chiesto di aiutare un altro team a produrre una classifica di importanza variabile, o produrre una classifica di importanza variabile dal mio lavoro. In risposta a queste richieste, faccio le seguenti domande
Per cosa vorresti questa classifica di importanza variabile? Cosa speri di imparare da esso? Che tipo di decisioni vorresti prendere per usarlo?
Le risposte che ricevo quasi sempre rientrano in una delle due categorie
- Mi piacerebbe conoscere l'importanza delle diverse variabili nel mio modello nel prevedere la risposta.
- Vorrei usarlo per la selezione delle funzionalità, rimuovendo le variabili di bassa importanza.
La prima risposta è tautologica (vorrei una classifica di importanza variabile perché vorrei una classifica di importanza variabile). Devo presumere che queste classifiche soddisfino un'esigenza psicologica quando consumano l'output di un modello multivariato. Ho difficoltà a comprenderlo, dato che classificare le variabili "importanza" individualmente sembra rifiutare implicitamente la natura multidimensionale del modello in questione.
La seconda risposta si riduce essenzialmente a una versione informale della selezione all'indietro , i cui peccati statistici sono ben documentati in altre parti di CrossValidated.
Faccio anche fatica con la natura mal definita delle classifiche di importanza. Sembra esserci un piccolo accordo su quale concetto sottostante dovrebbe essere misurato dalla classifica, dando loro un sapore molto ad hoc. Esistono molti modi per assegnare un punteggio o una classifica di importanza e generalmente presentano inconvenienti e avvertenze:
- Possono essere altamente dipendenti dall'algoritmo, come nelle classifiche di importanza nelle foreste casuali e nei gbms.
- Possono avere una varianza estremamente elevata, cambiando drasticamente con perturbazioni ai dati sottostanti.
- Possono soffrire notevolmente di correlazione nei predittori di input.
Quindi, con tutto ciò che ha detto, la mia domanda è: quali sono alcuni usi statisticamente validi delle classifiche di importanza variabile o, qual è un argomento convincente (o per uno statistico o un laico) per l'inutilità di un tale desiderio? Sono interessato sia agli argomenti teorici generali che ai casi studio, a seconda di quale sarebbe più efficace nel chiarire il punto.
glmnet
è disponibile?