Sto eseguendo un modello di regressione sia con Lasso che con Ridge (per prevedere una variabile di esito discreto che varia da 0-5). Prima di eseguire il modello, utilizzo il SelectKBest
metodo di scikit-learn
per ridurre il set di funzionalità da 250 a 25 . Senza una selezione iniziale delle caratteristiche, sia Lasso che Ridge raggiungono punteggi di precisione inferiori [che potrebbero essere dovuti alle dimensioni ridotte del campione, 600]. Inoltre, si noti che alcune funzionalità sono correlate.
Dopo aver eseguito il modello, osservo che la precisione della previsione è quasi la stessa con Lasso e Ridge. Tuttavia, quando controllo le prime 10 caratteristiche dopo averle ordinate in base al valore assoluto dei coefficienti, vedo che esiste al massimo una sovrapposizione di% 50.
Cioè, dato che a ciascun metodo è stata assegnata una diversa importanza delle caratteristiche, potrei avere un'interpretazione completamente diversa basata sul modello che scelgo.
Normalmente, le funzionalità rappresentano alcuni aspetti del comportamento dell'utente in un sito Web. Pertanto, voglio spiegare i risultati evidenziando le funzionalità (comportamenti dell'utente) con una maggiore capacità predittiva rispetto a caratteristiche più deboli (comportamenti dell'utente). Tuttavia, non so come andare avanti a questo punto. Come devo avvicinarmi all'interpretazione del modello? Ad esempio, dovrei combinare entrambi ed evidenziare quello sovrapposto, o dovrei andare con Lasso poiché fornisce più interpretabilità?
Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .