Ho letto innumerevoli post su questo sito che sono incredibilmente contrari all'uso della selezione graduale di variabili usando qualsiasi tipo di criterio, sia esso basato su valori p, AIC, BIC, ecc.
Capisco perché queste procedure sono in generale abbastanza scarse per la selezione delle variabili. il famoso post di Gung qui illustra chiaramente il perché; alla fine stiamo verificando un'ipotesi sullo stesso set di dati che abbiamo usato per elaborare l'ipotesi, che è solo il dragaggio dei dati. Inoltre, i valori di p sono influenzati da quantità come collinearità e valori anomali, che alterano pesantemente i risultati, ecc.
Tuttavia, ultimamente ho studiato un po 'di previsioni sulle serie temporali e ho trovato il rispettato libro di testo di Hyndman in cui menziona qui l'uso della selezione graduale per trovare in particolare l'ordine ottimale dei modelli ARIMA. In effetti, nel forecast
pacchetto in R l'algoritmo noto come auto.arima
predefinito utilizza la selezione graduale (con AIC, non valori p). Critica inoltre la selezione di funzionalità basate sul valore p che si allinea bene con più post su questo sito Web.
Alla fine, dovremmo sempre incrociare la convalida in qualche modo alla fine se l'obiettivo è sviluppare buoni modelli di previsione / previsione. Tuttavia, questo è sicuramente un disaccordo qui quando si tratta della procedura stessa per le metriche di valutazione diverse dai valori p.
Qualcuno ha qualche opinione sull'uso dell'AIC graduale in questo contesto, ma anche in generale fuori da questo contesto? Mi è stato insegnato a credere che qualsiasi selezione graduale sia scarsa, ma ad essere sincero, auto.arima(stepwise = TRUE)
mi ha dato risultati migliori rispetto al campione, auto.arima(stepwise = FALSE)
ma forse questa è solo una coincidenza.