Paradosso nella selezione dei modelli (AIC, BIC, per spiegare o prevedere?)


18

Dopo aver letto "To Explain or to Predict" (2010) di Galit Shmueli, sono perplesso da un'apparente contraddizione. Ci sono tre premesse,

  1. Scelta del modello basata su AIC rispetto a BIC (fine di p. 300 - inizio di p. 301): in poche parole, AIC dovrebbe essere usato per selezionare un modello destinato alla previsione mentre BIC dovrebbe essere usato per selezionare un modello per la spiegazione . Inoltre (non nel documento sopra), sappiamo che in alcune condizioni BIC seleziona il modello vero tra l'insieme dei modelli candidati; il vero modello è ciò che cerchiamo nella modellazione esplicativa (fine di p. 293).
  2. Aritmetica semplice: AIC selezionerà un modello più grande di BIC per campioni di dimensione 8 o superiore (soddisfacendo ln(n)>2 causa delle diverse penalità di complessità in AIC rispetto a BIC).
  3. Il modello "vero" (ovvero il modello con i regressori corretti e la forma funzionale corretta ma coefficienti stimati in modo imperfetto) potrebbe non essere il modello migliore per la previsione (p. 307): un modello di regressione con un predittore mancante può essere un modello di previsione migliore - l'introduzione della distorsione dovuta al predittore mancante può essere compensata dalla riduzione della varianza dovuta all'imprecisione della stima.

I punti 1. e 2. suggeriscono che i modelli più grandi potrebbero essere migliori per la previsione rispetto ai modelli più parsimoniosi. Nel frattempo, il punto 3. fornisce un esempio opposto in cui un modello più parsimonioso è migliore per la previsione rispetto a un modello più grande. Lo trovo sconcertante.

Domande:

  1. Come può l'apparente contraddizione tra i punti {1. e 2.} e 3. essere spiegati / risolti?
  2. Alla luce del punto 3., potresti fornire una spiegazione intuitiva del perché e come un modello più grande selezionato da AIC sia effettivamente migliore per la previsione rispetto a un modello più parsimonioso selezionato da BIC?

2
Non capisco il paradosso / la contraddizione. L'AIC è efficiente (minimizza asintoticamente l'errore di previsione previsto) e BIC è coerente (seleziona asintoticamente l'ordine reale). Il punto 3) afferma che la distorsione può essere compensata dalla varianza. Ovviamente non esiste alcuna garanzia che uno sia migliore dell'altro in un determinato campione. Quindi il tuo "paradosso" sembra essere quello per un dato campione, AIC potrebbe non essere il migliore per la previsione, il che non sorprende. Per il tuo Q2: se l'aumento di polarizzazione indotto dal modello più piccolo di BIC è maggiore dell'aumento di varianza in AIC più grande, AIC è migliore.
Hejseb,

2
Suggerirei di dare un'occhiata ai primi capitoli in "Selezione del modello e media del modello" di Nils Hjort e Gerda Claeskens, forse questo chiarirà le cose.
Hejseb,

Risposte:


1

Non devono essere presi nello stesso contesto; i punti 1 e 2 hanno contesti diversi. Sia per AIC che per BIC si esplora innanzitutto quale combinazione di parametri in quale numero produce gli indici migliori (Alcuni autori hanno adattamenti epilettici quando uso l' indice di parolein tale contesto. Ignorali o cerca l'indice nel dizionario.) Al punto 2, AIC è il modello più ricco, dove più ricco significa selezionare modelli con più parametri, solo a volte, perché spesso il modello AIC ottimale è lo stesso numero di parametri del modello BIC il selezione. Cioè, se AIC e BIC selezionano modelli con il SAME numero di parametri, allora l'affermazione è che AIC sarà migliore per la previsione rispetto a BIC. Tuttavia, potrebbe verificarsi il contrario se il BIC raggiunge il massimo con un numero di parametri inferiore selezionato (ma senza garanzie). Sober (2002) ha concluso che l'AIC misura l'accuratezza predittiva mentre BIC misura la bontà dell'adattamento, dove l'accuratezza predittiva può significare prevedere y al di fuori dell'intervallo di valori estremi di x. Quando fuori, spesso un AIC meno ottimale con parametri di previsione debolmente eliminati predirà meglio i valori estrapolati rispetto a un indice AIC ottimale da più parametri nel modello selezionato. Prendo atto che AIC e ML non ovviano alla necessità di test di errore di estrapolazione, che è un test separato per i modelli. Questo può essere fatto trattenendo valori estremi dall'insieme di "training" e calcolando l'errore tra il modello estrapolato di "post-training" e i dati trattenuti.

f(X)-yresidui (si pensi ai residui più negativi da un lato e ai residui più positivi dall'altro) riducendo così l'errore totale. Quindi in questo caso chiediamo il miglior valore y dato un valore x, e per AIC chiediamo più da vicino una migliore relazione funzionale tra xey. Una differenza tra queste è, ad esempio, che BIC, a parità di altre opzioni di parametro, avrà un migliore coefficiente di correlazione tra modello e dati e AIC avrà un migliore errore di estrapolazione misurato come errore del valore y per un dato valore x estrapolato.

Il punto 3 è talvolta un'affermazione in alcune condizioni

  • σ


  • β2

  • quando i predittori sono altamente correlati; e

  • quando la dimensione del campione è piccola o l'intervallo delle variabili di sinistra è piccolo.

2222

Mi affretto a sottolineare che queste affermazioni sono ottimiste. In genere, i modelli sono sbagliati e spesso un modello migliore imporrà una norma che non può essere utilizzata con AIC o BIC, oppure si presume che la struttura residua errata sia assunta per la loro applicazione e sono necessarie misure alternative. Nel mio lavoro, questo è sempre il caso.


1
Non sono sicuro che stai rispondendo alle domande. Sono consapevole delle limitazioni generali dei criteri di informazione, ma non è questo ciò di cui mi sto chiedendo. Inoltre, non capisco il tuo punto se AIC e BIC hanno lo stesso numero di parametri, quindi l'affermazione è che AIC sarà migliore per la previsione rispetto a BIC . Quando i modelli alternativi hanno lo stesso numero di parametri, il confronto AIC e BIC si riduce al confronto delle probabilità e sia AIC che BIC selezioneranno la stessa alternativa. Potresti anche elaborare ciò che intendi con un modello migliore imporrà una norma che non può essere utilizzata con AIC o BIC ?
Richard Hardy,

Continua: Finché abbiamo la probabilità e i gradi di libertà, possiamo calcolare AIC e BIC.
Richard Hardy,

@RichardHardy Vero: Finché abbiamo la probabilità e i gradi di libertà, possiamo calcolare AIC e BIC. Tuttavia, il calcolo sarà subottimale e fuorviante se i residui sono Student's-T e non abbiamo utilizzato AIC e BIC per Student's-T. A differenza di Student's-T, ci sono distribuzioni di residui per i quali ML potrebbe non essere pubblicato, ad esempio Gamma, Beta ecc.
Carl

Grazie per il chiarimento! Credo che dovrebbe esistere una risposta alle domande sopra che è abbastanza semplice e generale. Più specificamente, non penso che debba comportare casi "brutti" e fallimenti di AIC e BIC. Al contrario, penso che dovrebbe esserci un caso piuttosto basilare che potrebbe illustrare perché il paradosso è solo apparente piuttosto che reale. Allo stesso tempo, il tuo secondo paragrafo sembra andare nella direzione opposta. Non che non sarebbe prezioso in sé, ma temo che potrebbe distrarci dalle reali domande di fondo qui.
Richard Hardy,

@RichardHardy Spesso la domanda pratica è intrattabile per AIC. Ad esempio, il confronto di modelli uguali o diversi con norme e / o trasformazioni di dati differenti o analisi di norme complicate, ad esempio, errore che riduce la regolarizzazione di Tikhonov di un parametro derivato, inversioni generali ecc. Questo deve essere menzionato anche se qualcuno usa l'AIC , BIC in modo errato.
Carl,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.