Stepwise AIC - Esistono polemiche su questo argomento?


17

Ho letto innumerevoli post su questo sito che sono incredibilmente contrari all'uso della selezione graduale di variabili usando qualsiasi tipo di criterio, sia esso basato su valori p, AIC, BIC, ecc.

Capisco perché queste procedure sono in generale abbastanza scarse per la selezione delle variabili. il famoso post di Gung qui illustra chiaramente il perché; alla fine stiamo verificando un'ipotesi sullo stesso set di dati che abbiamo usato per elaborare l'ipotesi, che è solo il dragaggio dei dati. Inoltre, i valori di p sono influenzati da quantità come collinearità e valori anomali, che alterano pesantemente i risultati, ecc.

Tuttavia, ultimamente ho studiato un po 'di previsioni sulle serie temporali e ho trovato il rispettato libro di testo di Hyndman in cui menziona qui l'uso della selezione graduale per trovare in particolare l'ordine ottimale dei modelli ARIMA. In effetti, nel forecastpacchetto in R l'algoritmo noto come auto.arimapredefinito utilizza la selezione graduale (con AIC, non valori p). Critica inoltre la selezione di funzionalità basate sul valore p che si allinea bene con più post su questo sito Web.

Alla fine, dovremmo sempre incrociare la convalida in qualche modo alla fine se l'obiettivo è sviluppare buoni modelli di previsione / previsione. Tuttavia, questo è sicuramente un disaccordo qui quando si tratta della procedura stessa per le metriche di valutazione diverse dai valori p.

Qualcuno ha qualche opinione sull'uso dell'AIC graduale in questo contesto, ma anche in generale fuori da questo contesto? Mi è stato insegnato a credere che qualsiasi selezione graduale sia scarsa, ma ad essere sincero, auto.arima(stepwise = TRUE)mi ha dato risultati migliori rispetto al campione, auto.arima(stepwise = FALSE)ma forse questa è solo una coincidenza.


Una delle poche cose su cui i meteorologi possono concordare è che la selezione di un modello "migliore" di solito funziona meno bene rispetto alla combinazione di più modelli diversi.
S. Kolassa - Ripristina Monica il

Risposte:


20

Ci sono alcuni problemi diversi qui.

  • Probabilmente il problema principale è che la selezione del modello (se si utilizzano valori p o AIC, step-down o tutti i sottoinsiemi o qualcos'altro) è principalmente problematica per l' inferenza (ad es. Ottenere valori p con errore di tipo I appropriato, intervalli di confidenza con copertura adeguata). Per la previsione , la selezione del modello può effettivamente scegliere un punto migliore sull'asse di compromesso della variazione di polarizzazione e migliorare l'errore fuori campione.
  • Per alcune classi di modelli, AIC equivale in modo asintotico all'errore CV di tipo "one-out-one" [vedi ad esempio http://www.petrkeil.com/?p=836 ], quindi è ragionevole utilizzare AIC come proxy computazionalmente efficiente per CV.
  • La selezione graduale è spesso dominata da altri metodi di selezione del modello (o media ) (tutti i sottoinsiemi se fattibili dal punto di vista computazionale o metodi di contrazione). Ma è semplice e facile da implementare e se la risposta è abbastanza chiara (alcuni parametri corrispondenti a segnali forti, altri deboli, pochi intermedi), darà risultati ragionevoli. Ancora una volta, c'è una grande differenza tra inferenza e predizione. Ad esempio se hai un paio di predittori fortemente correlati, scegliere quello errato (da una "verità" / punto di vista causale) è un grosso problema per l'inferenza, ma scegliere quello che ti dà il miglior AIC è ragionevole strategia di previsione (anche se fallirà se si tenta di prevedere una situazione in cui la correlazione dei predittori cambia ...)

In conclusione: per dati di dimensioni moderate con un ragionevole rapporto segnale-rumore, la selezione graduale basata su AIC può effettivamente produrre un modello predittivo difendibile ; vedi Murtaugh (2009) per un esempio.

Murtaugh, Paul A. "Prestazioni di diversi metodi di selezione variabile applicati a dati ecologici reali." Lettere di ecologia 12, n. 10 (2009): 1061-1068.


(+1) Molto informativo. L'approccio che utilizza AIC / BIC o altri criteri informativi non deve essere mischiato a statistiche inferenziali utilizzandop-valori in ogni caso secondo il libro di Burnham & Anderson "Selezione di modelli e inferenza di più modelli: un approccio pratico di teoria dell'informazione."
COOLSerdash,

Per favore, non farmi iniziare su Burnham e Anderson. github.com/bbolker/discretization
Ben Bolker,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.