Affrontare l'incertezza del modello


25

Mi chiedevo come i Bayesiani nella comunità CrossValidated vedono il problema dell'incertezza del modello e come preferiscono affrontarlo? Proverò a porre la mia domanda in due parti:

  1. Quanto è importante (secondo la tua esperienza / opinione) affrontare l'incertezza del modello? Non ho trovato alcun documento relativo a questo problema nella comunità dell'apprendimento automatico, quindi mi chiedo solo perché.

  2. Quali sono gli approcci comuni per gestire l'incertezza del modello (punti bonus se si forniscono riferimenti)? Ho sentito parlare della media del modello bayesiano, anche se non ho familiarità con le specifiche tecniche / limitazioni di questo approccio. Quali sono alcuni altri e perché preferisci l'uno all'altro?


1
Un metodo meno popolare (ma con crescente popolarità) sono le regole di punteggio che valutano le prestazioni predittive dei modelli.

Risposte:


17

Vi sono due casi che sorgono nel trattare la selezione dei modelli:

  • Quando il modello vero appartiene allo spazio modello.

    È molto semplice gestire BIC . Ci sono risultati che mostrano che BIC selezionerà il modello vero con alta probabilità.

Tuttavia, in pratica è molto raro che conosciamo il vero modello. Devo osservare che il BIC tende a essere utilizzato in modo improprio a causa di ciò (la ragione probabile è il suo aspetto simile all'AIC ) . Questi problemi sono già stati affrontati in questo forum in varie forme. Una buona discussione è qui .

  • Quando il modello vero non si trova nello spazio modello.

    Questa è un'area attiva di ricerca nella comunità bayesiana. Tuttavia, si conferma che le persone sanno che l'utilizzo del BIC come criterio di selezione dei modelli in questo caso è pericoloso. La letteratura recente nell'analisi dei dati ad alta dimensione lo dimostra. Uno di questi esempi è questo . Il fattore Bayes ha prestazioni sorprendentemente buone in dimensioni elevate. Sono state proposte diverse modifiche di BIC, come mBIC, ma non vi è consenso. RJMCMC di Green è un altro modo popolare di fare la selezione del modello bayesiano, ma ha i suoi difetti. Puoi dare ulteriori informazioni su questo.

C'è un altro campo nel mondo bayesiano che raccomanda la media dei modelli. Essere notevole, dottor Raftery.

  • Media del modello bayesiano.

    Questo sito Web di Chris Volinksy è una fonte completa di media dei modelli bayesiani. Alcuni altri lavori sono qui .

Ancora una volta, la selezione del modello bayesiano è ancora un'area di ricerca attiva e potresti ottenere risposte molto diverse a seconda di chi chiedi.


log|UNn|log|nUN1|=plogn+log|UN1|UNnUN1log|UN1|=O(1)

potrebbe anche essere dovuto al fatto che l'approssimazione di Laplace si sta comportando male
Probislogic il

11

Un "vero" bayesiano affronterebbe l'incertezza del modello emarginando (integrando) tutti i modelli plausibili. Quindi, ad esempio, in un problema di regressione della cresta lineare si emarginerebbe sopra i parametri di regressione (che avrebbe un posteriore gaussiano, quindi potrebbe essere fatto analiticamente), ma poi emarginando sopra gli iper-paremetri (livello di rumore e parametro di regolarizzazione) tramite ad es. MCMC metodi.

Una soluzione bayesiana "minore" sarebbe quella di emarginare i parametri del modello, ma di ottimizzare gli iperparametri massimizzando la probabilità marginale (nota anche come "evidenza bayesiana") per il modello. Tuttavia, ciò può comportare un eccesso di adattamento di quanto ci si potrebbe aspettare (vedi ad esempio Cawley e Talbot ). Vedi il lavoro di David MacKay per informazioni sulla massimizzazione delle prove nell'apprendimento automatico. Per fare un confronto, vedere il lavoro di Radford Neal sull'approccio "integrare tutto fuori" a problemi simili. Si noti che il framework delle prove è molto utile per le situazioni in cui l'integrazione è troppo computazionalmente costosa, quindi c'è spazio per entrambi gli approcci.

I bayesiani si integrano efficacemente anziché ottimizzare. Idealmente, dichiareremmo la nostra precedente convinzione in merito alle caratteristiche della soluzione (ad es. Fluidità) e fare previsioni in modo notoionalmente senza fare effettivamente un modello. I "modelli" di processo gaussiani utilizzati nell'apprendimento automatico sono un esempio di questa idea, in cui la funzione di covarianza codifica la nostra precedente convinzione sulla soluzione. Vedi l'eccellente libro di Rasmussen e Williams .

Per i bayesiani pratici, c'è sempre la convalida incrociata, è difficile da battere per la maggior parte delle cose!


11

Una delle cose interessanti che trovo nel mondo "Incertezza del modello" è questa nozione di "modello vero". Ciò significa implicitamente che le nostre "proposizioni modello" sono nella forma:

Mio(1):Il modello è il vero modello

P(Mio(1)|Dio)Mio(1)

L'esaustività è cruciale qui, perché questo assicura che le probabilità si aggiungano a 1, il che significa che possiamo emarginare il modello.

Ma questo è tutto a livello concettuale: la media del modello ha buone prestazioni. Quindi questo significa che deve esserci un concetto migliore.

Personalmente, vedo i modelli come strumenti, come un martello o un trapano. I modelli sono costrutti mentali usati per fare previsioni o descrivere cose che possiamo osservare. Sembra molto strano parlare di un "vero martello" e ugualmente bizzare parlare di un "vero costrutto mentale". Sulla base di questo, la nozione di "modello vero" mi sembra strana. Sembra molto più naturale pensare a modelli "buoni" e modelli "cattivi", piuttosto che modelli "giusti" e modelli "sbagliati".

Prendendo questo punto di vista, potremmo ugualmente essere incerti sul modello "migliore" da usare, da una selezione di modelli. Supponiamo quindi di ragionare sulla proposta:

Mio(2):Tra tutti i modelli che sono stati specificati,
il modello è il miglior modello da usare

Mio(2)Mio(2)

In questo approccio, tuttavia, è necessaria una sorta di bontà della misura di adattamento, al fine di valutare quanto è buono il modello "migliore". Questo può essere fatto in due modi, testando modelli "cose ​​certe", che equivalgono alle normali statistiche GoF (divergenza KL, Chi-quadrato, ecc.). Un altro modo per valutare ciò è quello di includere un modello estremamente flessibile nella tua classe di modelli - forse un normale modello di miscela con centinaia di componenti o una miscela di processo di Dirichlet. Se questo modello risulta il migliore, è probabile che gli altri tuoi modelli siano inadeguati.

Questo documento ha una buona discussione teorica e analizza, passo dopo passo, un esempio di come si fa effettivamente la selezione del modello.


Un grande +1. Analisi molto ponderata e chiara.
whuber

Bella risposta. Devo dire che a giudicare da una specifica classe di modelli, il BIC è fantastico. Tuttavia, la maggior parte delle volte, come dici tu, il vero modello è fuori dallo spazio del modello. Quindi, come hai già detto, la vicinanza tra il modello reale e il "modello migliore" ha un senso. Queste sono le risposte che AIC e altri circuiti integrati tentano di rispondere. BMA funziona, ma ha anche dimostrato di non funzionare. Questo non vuol dire che è un male, ma dovremmo stare attenti quando ci pensiamo come un'alternativa universale.
suncoolsu,

1
CRUNP=CRUNP=1NΣio=1NCRUNPio

4

So che le persone usano il fattore DIC e Bayes, come ha detto Suncoolsu. Ed ero interessato quando ha detto "Ci sono risultati che mostrano che BIC selezionerà il modello vero con alta probabilità" (riferimenti?). Ma uso l'unica cosa che conosco, che è il controllo predittivo posteriore, sostenuto da Andrew Gelman. Se vai su Google Andrew Gelman e sui controlli predittivi posteriori troverai molte cose. E darei un'occhiata a ciò che Christian Robert sta scrivendo su ABC sulla scelta del modello . In ogni caso, ecco alcuni riferimenti che mi piacciono e alcuni post recenti nel blog di Gelman:

blog

DIC e AIC ; Altro su DIC . Verifica del modello e validazione esterna

Documenti sui controlli predittivi posteriori:

GELMAN, Andrew. (2003a). "Una formulazione bayesiana di analisi dei dati esplorativi e test di bontà di adattamento". Revisione statistica internazionale, vol. 71, n. 2, pagg. 389-382.

GELMAN, Andrew. (2003b). "Analisi esplorativa dei dati per modelli complessi". Journal of Computational and Graphic Statistics, vol. 13, n. 4, pagg. 755/779.

GELMAN, Andrew; MECHELEN, Iven Van; VERBEKE, Geert; HEITJAN, Daniel F .; MEULDERS, Michel. (2005). "Imputazione multipla per il controllo del modello: grafici di dati completati con dati mancanti e latenti". Biometria 61, 74–85, marzo

GELMAN, Andrew; MENG, Xiao-Li; STERN, Hal. (1996). "Valutazione predittiva posteriore della forma fisica attraverso discrepanze realizzate". Statistica Sinica, 6, pagg. 733-807.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.