LASSO e la selezione del modello avanti / indietro hanno entrambi punti di forza e limitazioni. Non è possibile formulare raccomandazioni di vasta portata. La simulazione può sempre essere esplorata per risolvere questo problema.
Entrambi possono essere compresi nel senso della dimensionalità: facendo riferimento a il numero di parametri del modello e il numero di osservazioni. Se sei stato in grado di adattare i modelli utilizzando la selezione dei modelli all'indietro , probabilmente non avevi . In tal caso, il modello "best fitting" è quello che utilizza tutti i parametri ... se validato internamente! Questa è semplicemente una questione di overfitting.n p ≫ npnp ≫ n
Il superfitting viene risolto utilizzando la convalida incrociata del campione diviso (CV) per la valutazione del modello. Dato che non l'hai descritto, suppongo che non l'abbia fatto. A differenza della selezione graduale del modello, LASSO utilizza un parametro di ottimizzazione per penalizzare il numero di parametri nel modello. È possibile correggere il parametro di ottimizzazione o utilizzare un processo iterativo complicato per scegliere questo valore. Di default , LASSO fa quest'ultimo. Questo viene fatto con CV in modo da ridurre al minimo l'MSE della previsione. Non sono a conoscenza di alcuna implementazione della selezione di modelli graduale che utilizza tecniche così sofisticate, anche il BIC come criterio risentirebbe di pregiudizi di validazione interna. Secondo il mio account, ciò conferisce automaticamente a LASSO una leva sulla selezione graduale del modello "out-of-the-box".
Infine, la selezione graduale del modello può avere criteri diversi per l'inclusione / esclusione di regressori diversi. Se si utilizzano i valori p per il test Wald dei parametri del modello specifico o il modello risultante R ^ 2, non si farà bene, principalmente a causa di errori di convalida interni (di nuovo, potrebbe essere risolto con CV). Trovo sorprendente che questo sia ancora il modo in cui tali modelli tendono ad essere implementati. AIC o BIC sono criteri molto migliori per la selezione del modello.
Esistono numerosi problemi con ciascun metodo. I problemi di selezione del modello graduale sono molto meglio compresi e molto peggio di quelli di LASSO. Il problema principale che vedo con la tua domanda è che stai usando gli strumenti di selezione delle funzionalità per valutare la previsione . Sono compiti distinti. LASSO è migliore per la selezione delle funzioni o la selezione dei modelli sparsi. La regressione della cresta può fornire una previsione migliore poiché utilizza tutte le variabili.
Il grande punto di forza di LASSO è che può stimare modelli in cui , come può essere il caso della regressione graduale in avanti (ma non all'indietro). In entrambi i casi, questi modelli possono essere efficaci per la previsione solo in presenza di una manciata di predittori molto potenti. Se un risultato viene predetto meglio da molti predittori deboli, la regressione della cresta o l'insaccamento / potenziamento supereranno sia la regressione graduale in avanti che LASSO di un colpo lungo. LASSO è molto più veloce della regressione graduale in avanti.p ≫ n
C'è ovviamente molta sovrapposizione tra la selezione delle funzioni e la previsione, ma non ti dico mai quanto bene una chiave inglese funge da martello. In generale, per la previsione con un numero scarso di coefficienti del modello e , preferirei LASSO piuttosto che la selezione del modello graduale in avanti.p ≫ n