A cosa servono le classifiche di importanza variabile?


25

Sono diventato in qualche modo un nichilista quando si tratta di classifiche di importanza variabile (nel contesto di modelli multivariati di ogni tipo).

Spesso nel corso del mio lavoro, mi viene chiesto di aiutare un altro team a produrre una classifica di importanza variabile, o produrre una classifica di importanza variabile dal mio lavoro. In risposta a queste richieste, faccio le seguenti domande

Per cosa vorresti questa classifica di importanza variabile? Cosa speri di imparare da esso? Che tipo di decisioni vorresti prendere per usarlo?

Le risposte che ricevo quasi sempre rientrano in una delle due categorie

  • Mi piacerebbe conoscere l'importanza delle diverse variabili nel mio modello nel prevedere la risposta.
  • Vorrei usarlo per la selezione delle funzionalità, rimuovendo le variabili di bassa importanza.

La prima risposta è tautologica (vorrei una classifica di importanza variabile perché vorrei una classifica di importanza variabile). Devo presumere che queste classifiche soddisfino un'esigenza psicologica quando consumano l'output di un modello multivariato. Ho difficoltà a comprenderlo, dato che classificare le variabili "importanza" individualmente sembra rifiutare implicitamente la natura multidimensionale del modello in questione.

La seconda risposta si riduce essenzialmente a una versione informale della selezione all'indietro , i cui peccati statistici sono ben documentati in altre parti di CrossValidated.

Faccio anche fatica con la natura mal definita delle classifiche di importanza. Sembra esserci un piccolo accordo su quale concetto sottostante dovrebbe essere misurato dalla classifica, dando loro un sapore molto ad hoc. Esistono molti modi per assegnare un punteggio o una classifica di importanza e generalmente presentano inconvenienti e avvertenze:

  • Possono essere altamente dipendenti dall'algoritmo, come nelle classifiche di importanza nelle foreste casuali e nei gbms.
  • Possono avere una varianza estremamente elevata, cambiando drasticamente con perturbazioni ai dati sottostanti.
  • Possono soffrire notevolmente di correlazione nei predittori di input.

Quindi, con tutto ciò che ha detto, la mia domanda è: quali sono alcuni usi statisticamente validi delle classifiche di importanza variabile o, qual è un argomento convincente (o per uno statistico o un laico) per l'inutilità di un tale desiderio? Sono interessato sia agli argomenti teorici generali che ai casi studio, a seconda di quale sarebbe più efficace nel chiarire il punto.


1
Usare un'importanza variabile (da una procedura ragionevole) per filtrare i predittori deboli non sembra un'idea terribile. Puoi chiarire perché pensi che sia negativo?
Dsaxton,

3
Suppongo che in generale penso che molti processi statistici non siano dominati da predittori "importanti", poiché sono l'accumulo di molti piccoli effetti. Ad esempio, il potere della regressione della cresta potrebbe essere spiegato riconoscendo esplicitamente questa struttura. Detto in altro modo, qual è la ragione per cui dovremmo credere, a priori, nel concetto di "debole predittore", e perché dovremmo filtrarli? E perché dovremmo usare una procedura così informale per farlo quando glmnetè disponibile?
Matthew Drury,

2
In qualsiasi campo in cui non siamo esperti, vogliamo sapere cosa è importante preoccuparsi! Molti libri di affari e di gestione sembrano spiegare a lungo che si identificano i problemi importanti e ci si concentra su di essi (sì, in effetti). Sospetto che la cattiva comunicazione qui di solito inizi con persone non statistiche supponendo che ci sia un modo per quantificare l'importanza e che sia compito delle persone statistiche sapere come farlo e non preoccuparsi di quanto sia difficile. Non so come essere meno generale, ma alcune discussioni qui sembrano mancare i punti chiave della tua domanda.
Nick Cox,

Risposte:


8

Ho sostenuto che l'importanza variabile è un concetto sfuggente , come si pone questa domanda. Il primo tipo tautologico di risposta che ottieni alla tua domanda e le speranze non realistiche di coloro che interpreterebbero risultati di importanza variabile in termini di causalità, come osservato da @DexGroves, richiedono poca elaborazione.

In tutta onestà a coloro che userebbero la selezione a ritroso, tuttavia, anche Frank Harrell lo consente come parte di una strategia di modellazione. Da pagina 97 delle sue Regressione Modeling Strategies , 2a edizione (un'affermazione simile è a pagina 131 delle note relative al corso ):

  1. Se la parsimonia è più importante della precisione, eseguire una selezione variabile al contrario ridotta.

Questo potenziale utilizzo limitato della selezione all'indietro, tuttavia, è il passaggio 13, l'ultimo passaggio prima del modello finale (passaggio 14). Arriva bene dopo i primi passi cruciali:

  1. Assembla il maggior numero possibile di dati pertinenti accurati, con ampie distribuzioni per i valori dei predittori ...
  2. Formulare buone ipotesi che portino alla specificazione dei predittori candidati rilevanti e alle possibili interazioni ...

Nella mia esperienza, le persone spesso vogliono ignorare il passaggio 2 e lasciare che alcune procedure automatizzate sostituiscano l'applicazione intelligente delle conoscenze in materia. Ciò può portare ad una parte dell'enfasi posta sull'importanza variabile.

Il modello completo del passaggio 14 di Harrell è seguito da 5 ulteriori passaggi di convalida e regolazione, con un ultimo passaggio:

  1. Sviluppare semplificazioni al modello completo avvicinandolo a qualsiasi grado di precisione desiderato.

Come hanno notato altre risposte, ci sono problemi di fattibilità, costi e semplicità che entrano nell'applicazione pratica dei risultati della modellazione. Ad esempio, se sviluppo un nuovo biomarcatore del cancro che migliora la prognosi ma costa $ 100.000 per test, potrebbe essere difficile convincere gli assicuratori o il governo a pagare per il test a meno che non sia straordinariamente utile. Quindi non è irragionevole per qualcuno voler concentrarsi su variabili che sono "più importanti" o semplificare un modello preciso in uno che è in qualche modo meno accurato ma è più facile o meno costoso da implementare.

Ma questa selezione variabile e la semplificazione del modello dovrebbero essere per uno scopo specifico , e penso che sia qui che sorge la difficoltà. Il problema è simile alla valutazione degli schemi di classificazione esclusivamente sulla base della percentuale di casi correttamente classificati. Proprio come errori di classificazione diversi possono avere costi diversi, diversi schemi di semplificazione del modello possono avere costi diversi che si bilanciano con i vantaggi sperati.

Quindi penso che il problema su cui concentrarsi come analista sia la capacità di stimare e illustrare questi costi e benefici in modo affidabile con le procedure di modellistica statistica, piuttosto che preoccuparsi troppo di un concetto astratto di validità statisticamente di per sé. Ad esempio, le pagine 157-8 delle note di classe di Harrell collegate sopra hanno un esempio dell'uso del bootstrap per mostrare i capricci dei predittori della classifica nei minimi quadrati; risultati simili possono essere trovati per insiemi di variabili selezionati da LASSO.

Se quel tipo di variabilità nella selezione delle variabili non interferisce con una particolare applicazione pratica del modello, va bene. Il compito è stimare la quantità e il tipo di problemi che la semplificazione porterà.


2
Questa è un'ottima risposta @EdM ed è abbastanza coerente con le opinioni che ho sviluppato sulla questione. Mi piacciono in particolare i tuoi due punti che 1) i predittori inaccettabili (per motivi morali, regolamentari o aziendali) dovrebbero essere esaminati prima della modellazione, 2) la semplificazione del modello finale dovrebbe essere per uno scopo specifico e definito in modo apriori. Questi sono essenzialmente i punti che di solito cerco di rilassare con le domande ai miei partner commerciali.
Matthew Drury,

Pr(β0)

Detto questo, mi chiedo ancora se ci sia qualche concetto di base che le classifiche di importanza stanno cercando di catturare, se sono solo attacchi ad hoc a un problema statistico poco chiaro.
Matthew Drury,

1
@MatthewDrury, Frank Harrell fornisce un modo di principio per valutare "l'importanza delle variabili", basato sulla frazione di verosimiglianza spiegata da ciascuna variabile. Questo non è ciò che gli individui meno sofisticati probabilmente significano con la frase. Come te, ho usato la frazione di volte in cui LASSO sceglie ogni predittore, tra più campioni di bootstrap, come il modo migliore a cui riesco a pensare per illustrare i capricci della selezione delle variabili. Questo mi ha principalmente allontanato da LASSO e diretto verso la regressione della cresta per problemi su scala moderata.
EdM

8

Questo è completamente aneddotico, ma ho trovato l'importanza variabile utile per identificare errori o punti deboli nei GBM.

L'importanza delle variabili offre una sorta di enorme panoramica del modello che sarebbe difficile ottenere diversamente. Le variabili più in alto nella lista vedono più attività (se sono o meno "importanti" è un'altra domanda). Spesso un predittore che si comporta male (ad esempio qualcosa di lungimirante o un fattore di alta cardinalità) sparerà verso l'alto.

Se c'è un grande disaccordo tra l'importanza della variabile dell'intuizione e l'importanza della variabile GBM, di solito c'è qualche preziosa conoscenza da acquisire o un errore da trovare.

Aggiungerei una terza risposta al "perché me lo chiedi?" domanda, che è "perché voglio capire cosa è causale alla mia risposta". Eep.


4

Le classifiche di importanza variabile hanno un ruolo definito nel mondo degli affari applicato ogni volta che è necessario dare la priorità al numero potenzialmente elevato di input per un processo, qualsiasi processo. Queste informazioni forniscono indicazioni in termini di una strategia mirata per attaccare un problema, passando dalla più alla meno importante, ad esempio, la riduzione dei costi di processo, dato che le variabili sono levabili e non fattori fissi o strutturali immuni alla manipolazione. Alla fine della giornata, ciò dovrebbe comportare un test A / B di qualche tipo.

A tuo avviso, tuttavia, Matt, e come per qualsiasi classifica ordinale, lievi sfumature o differenze tra le variabili possono essere ambigue o oscurate, vanificandone l'utilità.


Concordo pienamente con l'utilità del posizionamento variabile in molti casi aziendali. Ma qui la preoccupazione di "algoritmi diversi danno classifiche diverse" rimane irrisolta. Hai qualche suggerimento per affrontarlo? Vedi anche la mia domanda qui stats.stackexchange.com/q/251248/71287 e i commenti qui sotto.
Aliweb,

3
@aliweb Il problema della differenza non ha un'unica soluzione fissa e unitaria. Questo punto è sottile come la distinzione tra gerarchie ed eterarchie in cui le classifiche globali si rivelano, in effetti, interamente locali e transitorie. Le migliori recensioni della letteratura sull'importanza delle variabili relative probabilmente appartengono a Ulrike Groemping i cui articoli sono abbastanza completi rispetto alle varie metriche disponibili. Inoltre, il suo modulo R e il suo metodo - RELAMPO - è un approccio tanto rigoroso alla stima dell'importanza relativa esistente.
Mike Hunter,

3

Sono completamente d'accordo con te dal punto di vista teorico. Ma dal punto di vista pratico, l'importanza variabile è molto utile.

Facciamo un esempio in cui una compagnia assicurativa vuole ridurre il numero di domande in un questionario per quantificare il rischio dei propri clienti. Più è complicato il questionario, meno è probabile che i clienti acquistino i loro prodotti. Per questo motivo, vogliono ridurre le domande meno utili quando si mantiene il livello di quantificazione del rischio. La soluzione consiste spesso nell'utilizzare un'importanza variabile per determinare quali domande devono essere eliminate dal questionario (e avere "più o meno" la stessa previsione sul profilo di rischio del potenziale cliente).


Concordo pienamente con l'utilità del posizionamento variabile in molti casi aziendali. Ma qui la preoccupazione di "algoritmi diversi danno classifiche diverse" rimane irrisolta. Hai qualche suggerimento per affrontarlo? Vedi anche la mia domanda qui stats.stackexchange.com/q/251248/71287 e i commenti qui sotto.
Aliweb,

@aliweb: Penso che Matthew ti abbia già fornito una risposta eccellente alla tua domanda.
Metariat,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.