Selezione variabile vs Selezione modello

Quindi capisco che la selezione delle variabili fa parte della selezione del modello. Ma in cosa consiste esattamente la selezione del modello? È più di quanto segue:

1) scegli una distribuzione per il tuo modello

2) scegliere variabili esplicative,?

Lo chiedo perché sto leggendo un articolo Burnham & Anderson: AIC vs BIC in cui parlano di AIC e BIC nella selezione dei modelli. Leggendo questo articolo mi rendo conto di aver pensato alla "selezione del modello" come alla "selezione variabile" (rif. Commenti. Il BIC cerca di trovare un modello vero? )

Un estratto dall'articolo in cui parlano di 12 modelli con gradi crescenti di "generalità" e questi modelli mostrano "effetti di rastremazione" (Figura 1) quando KL-Information viene tracciata rispetto ai 12 modelli:

FILOSOFIE E MODELLI DI TARGET DIVERSI ... Nonostante il target del BIC sia un modello più generale rispetto al modello target per AIC, il modello più spesso selezionato qui dal BIC sarà meno generale del modello 7 a meno che n non sia molto grande. Potrebbe essere il Modello 5 o 6. È noto (da numerosi articoli e simulazioni in letteratura) che nel contesto degli effetti di affusolamento (Figura 1), l'AIC si comporta meglio del BIC. Se questo è il contesto della propria analisi dei dati reali, allora dovrebbe essere usato l'AIC.

Come può mai BIC scegliere un modello più complesso di AIC nella selezione del modello che non capisco! Che cosa è specificamente la "selezione del modello" e quando specificamente BIC sceglie un modello più "generale" di AIC?

$2ln(N)k$ $2k$

MODIFICA :

Da una discussione nei commenti in C'è qualche motivo per preferire l'AIC o il BIC rispetto all'altro? vediamo una piccola discussione tra @Michael Chernick e @ user13273 nei commenti, che mi porta a credere che questo sia qualcosa che non è così banale:

Penso che sia più appropriato chiamare questa discussione come selezione "caratteristica" o selezione "covariata". Per me, la selezione del modello è molto più ampia e comprende la specifica della distribuzione degli errori, la forma della funzione di collegamento e la forma delle covariate. Quando parliamo di AIC / BIC, in genere ci troviamo nella situazione in cui tutti gli aspetti della costruzione del modello sono fissi, tranne la selezione delle covariate. - user13273, 13 agosto 12 alle 21:17

La decisione delle covariate specifiche da includere in un modello generalmente fa riferimento alla selezione del modello del termine e nel titolo sono presenti numerosi libri con selezione del modello che decidono principalmente quale covariate / parametri del modello includere nel modello. - Michael Chernick, 24 agosto 12 alle 14:44

— Erosennin
fonte

Buona domanda! Almeno parte della risoluzione consiste nel distinguere tra il "target" di BIC nella terminologia di questo documento - il modello vero, che sceglierà con una dimensione del campione molto grande - e il modello che capita di scegliere con un campione particolare taglia. Non vi è quindi alcuna contraddizione, quando si considera una sequenza nidificata di modelli con un numero crescente. parametri, nel dire che l' obiettivo del BIC è il modello con 9 parametri, anche se a una dimensione del campione moderata il BIC sceglie il modello con 4 parametri e l'AIC quello con 6.

— Scortchi - Reinstate Monica

@Scortchi: Un buon esempio, ma il concetto di un modello target non è totalmente ridondante quando parliamo di modelli nidificati? Se il contesto è un insieme di modelli nidificati (allora stiamo parlando di selezione delle variabili): BIC potrebbe avere un modello target più complesso , ma non sceglierà mai un modello più complesso di AIC. In qualsiasi altro contesto (stiamo parlando della selezione del modello) (con ampie dimensioni del campione) il documento afferma che BIC sceglierà un modello target ("generale") più complesso di AIC. Come questo accada nello specifico, non mi è ancora chiaro.

— Erosennin,

@Erosennin sei mai riuscito a trovare una risposta a questa tua domanda generale?

— zipzapboing

A volte i modellisti separano la selezione delle variabili in una fase distinta nello sviluppo del modello. Ad esempio, per prima cosa eseguono analisi esplorative, ricercano la letteratura accademica e le pratiche del settore, quindi presentano un elenco di variabili candidate. Chiamerebbero questo passaggio selezione variabile .

y_{i} = \sum_{j_{m}} X_{i j_{m}} β_{j_{m}} + ε_{i},

$y_i=\sum_{j_m} X_{ij_m}\beta_{j_m}+\varepsilon_i,$

j_{m}

$j_m$

j

$j$

m

$m$

m

$m$

Questo è simile a come nell'apprendimento automatico le persone parlano dell'ingegnerizzazione delle funzionalità quando escono variabili. Inserisci le funzionalità in LASSO o framework simili in cui costruisci un modello usando queste funzionalità (variabili). In questo contesto ha senso separare la selezione delle variabili in un passaggio distinto, poiché si consente all'algoritmo di scegliere i giusti coefficienti per le variabili e non eliminare alcuna variabile. Il tuo giudizio (riguardo a quale variabile si inserisce in un modello) è isolato nella fase di selezione della variabile, quindi il resto dipende dall'algoritmo di adattamento.

$m$

— Aksakal
fonte