BIC cerca di trovare un modello vero?


17

Questa domanda è un seguito o un tentativo di chiarire la possibile confusione riguardo a un argomento che io e molti altri riscontriamo un po 'difficile, per quanto riguarda la differenza tra AIC e BIC. In una bella risposta di @Dave Kellen su questo argomento ( /stats//a/767/30589 ) leggiamo:

La tua domanda implica che AIC e BIC provano a rispondere alla stessa domanda, il che non è vero. AIC cerca di selezionare il modello che descrive più adeguatamente una realtà sconosciuta, ad alta dimensione. Ciò significa che la realtà non è mai nel set di modelli candidati che vengono considerati. Al contrario, BIC cerca di trovare il modello VERO tra i candidati. Trovo abbastanza strano il presupposto che la realtà sia istanziata in uno dei modelli che i ricercatori hanno costruito lungo la strada. Questo è un vero problema per BIC.

In un commento qui sotto, di @ gui11aume, leggiamo:

(-1) Grande spiegazione, ma vorrei contestare un'affermazione. @Dave Kellen Potresti per favore fare un riferimento a dove l'idea che il modello TRUE debba essere nel set per BIC? Vorrei indagare su questo, poiché in questo libro gli autori forniscono una prova convincente che non è così. - gui11aume, 27 maggio 12 alle 21:47

Sembra che questa affermazione provenga dallo stesso Schwarz (1978), sebbene l'asserzione non fosse necessaria: dagli stessi autori (come link @ gui11aume a), leggiamo dal loro articolo "Inferenza multimodel: capire AIC e BIC nella selezione del modello" ( Burnham and Anderson, 2004):

La derivazione di BIC presuppone l'esistenza di un modello vero o, più restrittivamente, si assume che il vero modello si trovi nel set di modelli quando si usa BIC? (La derivazione di Schwarz ha specificato queste condizioni.) ... La risposta ... no. Ossia, BIC (come base per un'approssimazione a un certo integrale bayesiano) può essere derivato senza supporre che il modello alla base della derivazione sia vero (vedi, ad esempio, Cavanaugh e Neath 1999; Burnham e Anderson 2002: 293-5). Certamente, nell'applicare il BIC, il set di modelli non deve contenere il modello vero (inesistente) che rappresenta la realtà completa. Inoltre, la convergenza in probabilità del modello selezionato BIC a un modello targbet (sotto l'idealizzazione di un campione iid) non significa logicamente che quel modello target debba essere la vera distribuzione generatrice di dati).

Quindi, penso che valga la pena discutere o fare qualche chiarimento (se è necessario di più) su questo argomento. In questo momento, tutto ciò che abbiamo è un commento di @ gui11aume (grazie!) Sotto una risposta molto votata riguardo alla differenza tra AIC e BIC.


1
Per focalizzare meglio la domanda, AIC potrebbe forse essere rimosso dal titolo poiché, se ho capito bene, questa domanda riguarda se il vero modello deve essere nel set di candidati quando si usa BIC.
Juho Kokkala,

@JuhoKokkala: sono d'accordo.
Erosennin,

4
Per me la linea di fondo è che nella maggior parte delle applicazioni pratiche BIC si traduce in insufficiente e AIC valuta più correttamente le probabili prestazioni del modello su nuovi dati non disponibili. Ma se si utilizza AIC o BIC se si seleziona tra, per esempio, 3 modelli / set di funzionalità concorrenti, il modello risultante può adattarsi eccessivamente. AIC e BIC funzionano meglio quando il numero di modelli potenziali è basso o i modelli sono collegati da un piccolo numero di parametri (ad es. Penalità).
Frank Harrell,

Grazie @Erosennin per aver trovato il riferimento. Ora capisco da dove viene l'idea che il modello TRUE deve essere incluso.
gui11aume,

@FrankHarrell: Potresti spiegare cosa intendi per "applicazioni pratiche"? Se capisco correttamente Burnham e Anderson, sembra che il BIC si tradurrà in una sottovalutazione quando i dati sono scarsi. Quando avremo molti dati, BIC sceglierà / cercherà un modello quasi vero più complesso di AIC. AIC e BIC hanno diversi "modelli target". Mi piacerebbe un'elaborazione di ciò che stai dicendo, anche solo per indirizzarmi verso un articolo / libro.
Erosennin,

Risposte:


11

p(M1|y)p(M2|y)>1ASIC(M1)<SIC(M2)
Ap(Mj|y)jy

IC(k)=2Tl(θ^;y)+kg(T)
l(θ^;y)θ^kT
g(T)0as
Tg(T)as
gAIC(T)=2T,gSIC(T)=lnTT

Elliott, G. e A. Timmermann (2016, aprile). Previsioni economiche. Pressa dell'Università di Princeton.

Schwarz, Gideon. "Stima della dimensione di un modello." Gli annali delle statistiche 6.2 (1978): 461-464.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.