Ho creato un classificatore di regressione logistica che è molto preciso sui miei dati. Ora voglio capire meglio perché funziona così bene. In particolare, vorrei classificare quali caratteristiche stanno apportando il contributo maggiore (quali sono le funzioni più importanti) e, idealmente, quantificare quanto ciascuna funzionalità contribuisce alla precisione del modello generale (o qualcosa in questa ottica). Come faccio a fare questo?
Il mio primo pensiero è stato quello di classificarli in base al loro coefficiente, ma sospetto che questo non possa essere giusto. Se avessi due funzioni ugualmente utili, ma la diffusione della prima è dieci volte più grande della seconda, mi aspetto che la prima riceva un coefficiente inferiore rispetto alla seconda. Esiste un modo più ragionevole per valutare l'importanza delle funzionalità?
Si noti che non sto cercando di capire quanto una piccola modifica nella funzionalità influisca sulla probabilità del risultato. Piuttosto, sto cercando di capire quanto sia preziosa ogni funzione, in termini di accuratezza del classificatore. Inoltre, il mio obiettivo non è tanto quello di eseguire la selezione delle funzionalità o di costruire un modello con meno funzionalità, ma di provare a fornire un po 'di "spiegabilità" per il modello appreso, quindi il classificatore non è solo una scatola nera opaca.