Perché dovrei essere bayesiano quando il mio modello è sbagliato?


68

Modifiche: ho aggiunto un semplice esempio: inferenza della media di . Ho anche chiarito leggermente perché gli intervalli credibili che non corrispondono agli intervalli di confidenza sono cattivi.Xi

Io, un bayesiano abbastanza devoto, sono nel mezzo di una sorta di crisi di fede.

Il mio problema è il seguente. Supponiamo che io voglia analizzare alcuni dati IID . Quello che vorrei fare è:Xi

  • in primo luogo, proporre un modello condizionale:

    p(X|θ)
  • Quindi, scegli un precedente su : θ

    p(θ)
  • Infine, applica la regola di Bayes, calcola il posteriore: (o qualche approssimazione ad esso se dovesse essere incomputabile) e rispondi a tutte le domande che ho sup(θ|X1Xn)θ

Questo è un approccio sensato: se il vero modello dei dati è davvero "dentro" al mio condizionale (corrisponde ad un valore ), allora posso invocare la teoria della decisione statistica per dire che il mio metodo è ammissibile (vedi Robert's "La scelta bayesiana" per i dettagli; "Tutte le statistiche" fornisce anche un chiaro resoconto nel capitolo pertinente).Xiθ0

Tuttavia, come tutti sanno, supporre che il mio modello sia corretto è abbastanza arrogante: perché la natura dovrebbe rientrare ordinatamente nella scatola dei modelli che ho considerato? È molto più realistico supporre che il modello reale dei dati differisca da per tutti i valori di . Questo di solito viene chiamato modello "non specificato".ptrue(X)p(X|θ)θ

Il mio problema è che, in questo caso più realistico non correttamente specificato, non ho buoni argomenti per essere bayesiano (ovvero: calcolare la distribuzione posteriore) rispetto al semplice calcolo dello stimatore della massima verosimiglianza (MLE):

θ^ML=argmaxθ[p(X1Xn|θ)]

Infatti, secondo Kleijn, vd Vaart (2012) , nel caso errato, la distribuzione posteriore:

  • converge come in una distribuzione dirac centrata su unnθ^ML

  • non ha la varianza corretta (a meno che due valori non coincidano) al fine di garantire che gli intervalli credibili degli intervalli posteriori corrispondano agli intervalli di confidenza per . (Si noti che, sebbene gli intervalli di confidenza siano ovviamente qualcosa di cui i bayesiani non si preoccupano eccessivamente, ciò significa qualitativamente che la distribuzione posteriore è intrinsecamente sbagliata, poiché implica che i suoi intervalli credibili non hanno una copertura corretta)θ

Pertanto, stiamo pagando un premio computazionale (l'inferenza bayesiana, in generale, è più costosa della MLE) senza proprietà aggiuntive

Quindi, infine, la mia domanda: ci sono argomenti, sia teorici che empirici, per usare l'inferenza bayesiana sulla più semplice alternativa MLE quando il modello è specificato male?

(Dato che so che le mie domande sono spesso poco chiare, per favore fatemi sapere se non capite qualcosa: proverò a riformularla)

Modifica: consideriamo un semplice esempio: inferire la media di sotto un modello gaussiano (con varianza nota per semplificare ulteriormente). Consideriamo un priore gaussiano: denotiamo la media precedente, la varianza inversa del priore. Sia la media empirica di . Infine, nota: .Xiσμ0β0X¯Xiμ=(β0μ0+nσ2X¯)/(β0+nσ2)

La distribuzione posteriore è:

p(θ|X1Xn)exp((β0+nσ2)(θμ)2/2)

Nel caso correttamente specificato (quando davvero una distribuzione gaussiana), questo posteriore ha le seguenti belle proprietàXi

  • Se gli sono generati da un modello gerarchico in cui la loro media condivisa viene prelevata dalla distribuzione precedente, gli intervalli credibili posteriori hanno una copertura esatta. In base ai dati, la probabilità che sia in qualsiasi intervallo è uguale alla probabilità che il posteriore attribuisca a questo intervalloXiθ

  • Anche se il precedente non è corretto, gli intervalli credibili hanno una copertura corretta nel limite in cui svanisce l'influenza precedente sul posterioren

  • il posteriore ha inoltre buone proprietà frequentiste: qualsiasi stimatore bayesiano costruito dal posteriore è garantito per essere ammissibile, la media posteriore è uno stimatore efficiente (nel senso di Cramer-Rao) della media, gli intervalli credibili sono, asintoticamente, intervalli di confidenza.

Nel caso errato, la maggior parte di queste proprietà non sono garantite dalla teoria. Per correggere le idee, supponiamo che il vero modello per sia che sono invece distribuzioni per studenti. L'unica proprietà che possiamo garantire (Kleijn et al) è che la distribuzione posteriore si concentri sulla media reale di nel limite . In generale, tutte le proprietà di copertura svanirebbero. Peggio ancora, in generale, possiamo garantire che, in quel limite, le proprietà di copertura sono fondamentalmente sbagliate: la distribuzione posteriore attribuisce la probabilità errata a varie regioni dello spazio.XiXin


2
Bene, gli approcci bayesiani si regolarizzano. Questo è qualcosa, per aiutare contro il sovra-adattamento - indipendentemente dal fatto che il tuo modello sia errato o meno. Naturalmente, ciò porta solo alla domanda correlata sugli argomenti per l'inferenza bayesiana contro approcci classici regolarizzati (lazo, regressione della cresta, rete elastica ecc.).
S. Kolassa - Ripristina Monica il

3
Potresti essere interessato a questo lavoro e ai suoi parenti.
Dougal,

7
Quando il tuo modello viene specificato in modo errato in termini di utilizzo della funzione di probabilità errata, le stime MLE e Bayesian sarebbero errate ...
Tim

5
@Tim: l'inferenza MLE e bayesiana non sono prive di significato nel caso errato: entrambi cercano di recuperare il valore del parametro che fornisce il miglior resoconto dei dati all'interno dei modelli condizionali. Più precisamente, è l'argmin di dove KL è la divergenza di Kullback Leibler. Sotto lievi ipotesi, sia la MLE che l'inferenza bayesiana identificano correttamente questa se fornita con una quantità sufficiente di datiθ~0θ~0KL[p(X),p(X|θ)]θ~0
Guillaume Dehaene,

3
@amoeba Immagino un aspetto bayesiano duro e mi comporto come comandante Che
Aksakal

Risposte:


31

Considero l'approccio bayesiano quando il mio set di dati non è tutto ciò che è noto sull'argomento e voglio in qualche modo incorporare quella conoscenza esogena nella mia previsione.

Ad esempio, il mio cliente desidera una previsione dei valori predefiniti del prestito nel proprio portafoglio. Hanno 100 prestiti con alcuni anni di dati storici trimestrali. Ci sono stati alcuni episodi di delinquenza (ritardo nel pagamento) e solo un paio di inadempienze. Se provo a stimare il modello di sopravvivenza su questo set di dati, saranno pochissimi dati da stimare e troppa incertezza da prevedere.

D'altra parte, i gestori di portafoglio sono persone con esperienza, alcune di esse potrebbero aver trascorso decenni a gestire i rapporti con i mutuatari. Hanno idee su come dovrebbero essere i tassi di default. Quindi, sono in grado di inventare priori ragionevoli. Si noti, non i priori che hanno belle proprietà matematiche e guardano intellettualmente attraente per me . Parlerò con loro ed estrarrò le loro esperienze e conoscenze sotto forma di quei priori.

Ora la struttura bayesiana mi fornirà la meccanica per sposare la conoscenza esogena sotto forma di dati precedenti e ottenere il posteriore che è superiore sia al giudizio qualitativo puro sia alla previsione guidata da dati puri, secondo me. Questa non è una filosofia e non sono un bayesiano. Sto solo usando gli strumenti bayesiani per integrare costantemente le conoscenze degli esperti nella stima basata sui dati.


3
Un bel punto. L'inferenza bayesiana offre una struttura per risolvere precisamente un compito come quello che hai presentato. Grazie.
Guillaume Dehaene,

5
Questo è un argomento generale per la modellazione bayesiana, ma come si collega al caso specifico del modello non specificato? Non vedo una connessione.
Richard Hardy,

4
Bene, si riferisce alla mia domanda: anche nel caso errato, l'inferenza bayesiana gestisce informazioni qualitative migliori (cioè: in un modo più di principio), attraverso i metodi precedenti, rispetto ai metodi MLE, che dovrebbero lavorare con i regolarizzatori. È una forma di argomento empirico sul perché l'inferenza bayesiana sia leggermente migliore dell'MLE.
Guillaume Dehaene il

2
@Aksakal, se i modelli sono specificati in modo errato è oltre il punto. Ciò di cui mi preoccupo è che non rispondi alla domanda. (Se l'OP non è d'accordo, penso che abbia fatto un pessimo lavoro nel formulare la domanda.) Ma vedo che c'è stata una modifica recente, quindi forse la domanda è stata cambiata ormai.
Richard Hardy,

4
@RichardHardy, penso che la mia risposta entri nel cuore della crisi di fede di OP che è guidata dal pensiero che se il tuo modello condizionale viene erroneamente specificato, allora sopraffà il precedente con l'aumentare della dimensione del campione e il tuo posteriore verrà spinto verso il modello sbagliato . In questo caso, perché preoccuparsi di Bayesian per cominciare, perché non limitarsi a MLE, chiede. Il mio esempio non è decisamente filosofico, ma pratico: spesso si tratta non solo di esempi limitati, ma di piccoli campioni. Quindi, i tuoi dati non trascineranno il posteriore troppo lontano dal precedente, il che rappresenta la conoscenza esogena.
Aksakal,

25

Una domanda molto interessante ... che potrebbe non avere una risposta (ma che non la rende meno interessante!)

Alcuni pensieri (e molti link ai miei post sul blog!) Su quel meme che tutti i modelli sono sbagliati :

  1. Sebbene il modello ipotetico sia effettivamente quasi invariabilmente e irrimediabilmente sbagliato , ha ancora senso agire in modo efficiente o coerente rispetto a questo modello se questo è il migliore che si possa fare. L'inferenza risultante produce una valutazione del modello formale che è il "più vicino" al modello di generazione dei dati effettivo (se presente);
  2. Esistono approcci bayesiani che possono fare a meno del modello , un esempio più recente sono gli articoli di Bissiri et al. (con i miei commenti ) e di Watson e Holmes (di cui ho discusso con Judith Rousseau );
  3. In un modo connesso, esiste un'intera branca delle statistiche bayesiane che tratta dell'inferenza M-aperta ;
  4. E ancora un'altra direzione che mi piace molto è l' approccio SafeBayes di Peter Grünwald , che tiene conto della mancata specificazione del modello per sostituire la probabilità con una versione declassata espressa come potenza della probabilità originale.
  5. Il recente Read Paper di Gelman e Hennig affronta questo problema, sebbene in modo circonciso (e ho aggiunto alcuni commenti sul mio blog ). Presumo che potresti raccogliere materiale per una discussione dalle voci sulla tua domanda.
  6. In un certo senso, i bayesiani dovrebbero essere i meno preoccupati tra gli statistici e i modellisti su questo aspetto poiché il modello di campionamento deve essere preso come una delle varie assunzioni precedenti e il risultato è condizionato o relativo a tutte quelle assunzioni precedenti.

2
È molto bello avere la tua opinione su questo. Il tuo primo punto ha un senso intuitivo: se il modello non è troppo sbagliato, il risultato della nostra inferenza dovrebbe essere ok. Tuttavia, qualcuno ha mai dimostrato risultati del genere (o ha esplorato la domanda empiricamente)? Il tuo ultimo punto (che potrei aver frainteso) mi lascia perplesso: il modello di campionamento è una scelta critica. Il fatto che facciamo anche delle scelte non significa che gli errori nella scelta del modello di campionamento non possano contaminare l'intero modello. Grazie per i riferimenti e il meraviglioso blog.
Guillaume Dehaene,

Per il punto 1., perché non fare una media del modello bayesiano? Perché usare semplicemente il modello "migliore"?
Innisfree

@innisfree: tutto dipende da cosa hai intenzione di fare con il risultato, non ho alcuna religione sulla media dei modelli rispetto al modello migliore.
Xi'an,

1
Sembra che tu stia suggerendo che esiste un aspetto teorico della decisione dell'incertezza del modello medio rispetto alla scelta del solo modello "migliore". Sicuramente è sempre vantaggioso, cioè aiuta a prendere decisioni migliori, per incorporare coerentemente tutte le incertezze, comprese le incertezze del modello.
Innisfree

2
La mia obiezione principale ai non parametrici è pratica: sono più computazionalmente costosi di diversi ordini di grandezza rispetto alle alternative più semplici. Inoltre, non incontriamo problemi con i non parametrici, perché è quasi impossibile per due distribuzioni precedenti avere un supporto comune? Ciò significa che il priore avrebbe una forte influenza e che sarebbe (quasi) impossibile per gli statistici bayesiani concordare quando si parte da diversi priori.
Guillaume Dehaene,

12

Modifiche: aggiunto riferimento a questo documento nel corpo, come richiesto dall'OP.


Sto dando una risposta come ingenuo bayesiano empirico qui.

Innanzitutto, la distribuzione posteriore consente di eseguire calcoli che semplicemente non è possibile eseguire con un MLE semplice. Il caso più semplice è che il posteriore di oggi è il precedente di domani . L'inferenza bayesiana consente naturalmente aggiornamenti sequenziali o, più in generale, una combinazione online o ritardata di più fonti di informazione (l'incorporazione di un precedente è solo un'istanza da manuale di tale combinazione). La teoria delle decisioni bayesiane con una funzione di perdita non banale è un altro esempio. Non saprei cosa fare altrimenti.

In secondo luogo, con questa risposta proverò a sostenere che il mantra secondo cui la quantificazione dell'incertezza è generalmente migliore di nessuna incertezza è effettivamente una domanda empirica, dal momento che i teoremi (come hai detto, e per quanto ne so) non forniscono garanzie.

Ottimizzazione come modello giocattolo di impegno scientifico

Un dominio che mi sento pienamente cattura la complessità del problema è molto pratico, senza fronzoli uno, l'ottimizzazione di un black-box funzione . Partiamo dal presupposto che possiamo interrogare in sequenza un punto e ottenere un'osservazione forse rumorosa , con . Il nostro obiettivo è avvicinarci il più possibile a con il numero minimo di valutazioni delle funzioni.f:XRDRxXy=f(x)+εεN(0,σ2)x=argminxf(x)

Un modo particolarmente efficace di procedere, come ci si può aspettare, è quello di costruire un modello predittivo di cosa accadrebbe se interrogassi qualsiasi e usassi queste informazioni per decidere cosa fare dopo a livello locale o globale). Vedi Rios e Sahinidis (2013) per una revisione dei metodi di ottimizzazione globale senza derivati. Quando il modello è abbastanza complesso, questo è chiamato un meta-modello o una funzione surrogata o un approccio di superficie di risposta . Fondamentalmente, il modello potrebbe essere una stima puntuale di (ad esempio, l'adattamento di una funzione di rete di base radiale alle nostre osservazioni), oppure potremmo essere bayesiani e in qualche modo ottenere una distribuzione posteriore completa suxXff (ad es. tramite un processo gaussiano).

L'ottimizzazione bayesiana utilizza il posteriore rispetto a (in particolare, la media posteriore condizionale comune e la varianza in qualsiasi punto) per guidare la ricerca dell'ottimale (globale) tramite un principio euristico di principio. La scelta classica è quella di massimizzare il miglioramento atteso rispetto all'attuale miglior punto, ma ci sono metodi ancora più fantasiosi, come ridurre al minimo l'entropia attesa rispetto alla posizione del minimo (vedi anche qui ).f

Il risultato empirico qui è che avere accesso a un posteriore, anche se parzialmente errato, produce generalmente risultati migliori rispetto ad altri metodi. (Esistono avvertenze e situazioni in cui l'ottimizzazione bayesiana non è migliore della ricerca casuale, come ad esempio in dimensioni elevate.) In questo documento , eseguiamo una valutazione empirica di un nuovo metodo BO rispetto ad altri algoritmi di ottimizzazione, verificando se l'uso di BO è conveniente in pratica, con risultati promettenti.

Da quando lo hai chiesto, questo ha un costo di calcolo molto più elevato rispetto ad altri metodi non bayesiani e ti chiedevi perché dovremmo essere bayesiani. Il presupposto qui è che il costo implicito nella valutazione della vera (ad esempio, in uno scenario reale, un esperimento di ingegneria o di apprendimento automatico complesso) è molto più grande del costo computazionale per l'analisi bayesiana, quindi essere bayesiano paga .f

Cosa possiamo imparare da questo esempio?

Innanzitutto, perché l'ottimizzazione bayesiana funziona affatto? Credo che il modello è sbagliato, ma non quello sbagliato, e come al solito erroneità dipende da ciò che il modello è per. Ad esempio, la forma esatta di non è rilevante per l'ottimizzazione, poiché potremmo ottimizzare qualsiasi sua trasformazione monotonica. Immagino che la natura sia piena di tali invarianze. Pertanto, la ricerca che stiamo eseguendo potrebbe non essere ottimale (ad esempio, stiamo eliminando buone informazioni), ma comunque meglio che senza informazioni sull'incertezza.f

In secondo luogo, il nostro esempio evidenzia che è possibile che l'utilità di essere bayesiani o meno dipenda dal contesto , ad esempio il costo relativo e la quantità di risorse disponibili (computazionali). (Naturalmente se sei un bayesiano hardcore, credi che ogni calcolo sia un'inferenza bayesiana sotto qualche precedente e / o approssimazione.)

Infine, la grande domanda è: perché i modelli che usiamo non sono poi così male , nel senso che i posteriori sono ancora utili e non spazzatura statistica? Se prendiamo il teorema del No Free Lunch, apparentemente non dovremmo essere in grado di dire molto, ma per fortuna non viviamo in un mondo di funzioni completamente casuali (o scelte avversamente ).

Più in generale, dal momento che hai messo il tag "filosofico" ... Immagino che stiamo entrando nel regno del problema dell'induzione o dell'efficacia irragionevole della matematica nelle scienze statistiche (in particolare, della nostra intuizione matematica e capacità di specificare i modelli che funzionano nella pratica) - nel senso che da un punto di vista puramente a priori non vi è alcun motivo per cui le nostre ipotesi dovrebbero essere buone o avere qualche garanzia (e di sicuro è possibile costruire controesempi matematici in cui le cose vanno male), ma girano lavorare bene in pratica.


2
Risposta fantastica. Grazie mille per il tuo contributo. Esiste un riesame / equo confronto tra l'ottimizzazione bayesiana e le normali tecniche di ottimizzazione che evidenzia che la versione bayesiana è empiricamente migliore come affermi? (Sto abbastanza bene nel prenderti in parola, ma un riferimento sarebbe utile)
Guillaume Dehaene

1
Grazie! Penso che la chiamata numerica probabilistica alle armi contenga diversi argomenti teorici ed empirici. Non sono a conoscenza di un punto di riferimento che confronta realmente i metodi BO con metodi standard, ma [ trigger trigger: plug spudorato ] Attualmente sto lavorando a qualcosa di simile nel campo delle neuroscienze computazionali; Ho intenzione di mettere alcuni dei risultati su arXiv, si spera nelle prossime settimane.
lacerbi,

In effetti, almeno la loro figura 2 ha un chiaro confronto. Potresti aggiungere il tuo lavoro alla domanda principale una volta che è uscito? Sento che sarebbe un'aggiunta preziosa.
Guillaume Dehaene,

Sì, questo è il loro metodo per la quadratura bayesiana adattiva, che è un'idea piuttosto interessante (in pratica, la sua efficacia dipende dal funzionamento dell'approssimazione GP; che è spesso quasi equivalente a dire che hai una parametrizzazione ragionevole del tuo problema). Aggiungerò il link alla risposta quando il mio lavoro sarà disponibile, grazie.
lacerbi,

1
@IMA: Scusa, non credo di ottenere il tuo punto al 100%. Stavo prendendo l'ottimizzazione della scatola nera come modello giocattolo dello sforzo scientifico. Credo che tu possa mappare molti passaggi e problemi della "scienza" a questo dominio più semplice (ma ancora incredibilmente complesso). Non è necessario per il mio argomento il presupposto del "rumore gaussiano", era solo per semplicità. I problemi di ottimizzazione del mondo reale (ad es. In ingegneria) possono essere danneggiati dal rumore non gaussiano, e questo è qualcosa che deve essere affrontato. E i processi gaussiani non hanno bisogno del rumore di osservazione gaussiano (sebbene renda facile l'inferenza).
lacerbi,

10

Lo vedo solo oggi, ma penso ancora che dovrei fare il chip in quanto sono un po 'un esperto e che almeno due risposte (nr 3 e 20 (grazie per il riferimento al mio lavoro Xi'an!)) Menzionano il mio lavoro su SafeBayes - in particolare G. e van Ommen, "Incoerenza dell'inferenza bayesiana per modelli lineari non specificati e una proposta di riparazione" (2014). E vorrei anche aggiungere qualcosa per commentare 2:

2 dice: (un vantaggio di Bayes in caso di errata specificazione è ...) "Bene, gli approcci bayesiani si regolarizzano. Questo è qualcosa, per aiutare contro il sovradimensionamento - indipendentemente dal fatto che il modello sia errato o meno specificato. Naturalmente, ciò porta solo alla domanda correlata su argomenti per l'inferenza bayesiana contro approcci classici regolarizzati (lazo ecc.) "

Questo è vero, ma è fondamentale aggiungere che gli approcci bayesiani potrebbero non essere abbastanza regolari se il modello è sbagliato. Questo è il punto principale del lavoro con Van Ommen: vediamo che gli standard Bayes si adattano piuttosto terribilmente in un contesto di regressione con modelli sbagliati ma molto utili. Non male come MLE, ma ancora troppo per essere utile. C'è un intero filone di lavoro nell'apprendimento automatico teorico (frequentista e teorico dei giochi) in cui usano metodi simili a Bayes, ma con un "tasso di apprendimento" molto più piccolo - rendendo il precedente di più e i dati meno importanti, regolarizzando così di più. Questi metodi sono progettati per funzionare bene nelle situazioni peggiori (errata specificazione e, peggio ancora, dati contraddittori) - l'approccio SafeBayes è progettato per "apprendere il tasso di apprendimento ottimale" dai dati stessi - e questo tasso di apprendimento ottimale, cioè la quantità ottimale di regolarizzazione,

Allo stesso modo, esiste un teorema popolare (menzionato da molti sopra) che dice che Bayes avrà il concentrato posteriore sulla distribuzione più vicina nella divergenza di KL alla "verità". Ma questo vale solo in condizioni molto stringenti - MOLTO più rigoroso delle condizioni necessarie per la convergenza nel caso ben specificato. Se hai a che fare con modelli parametrici standard a bassa dimensione e i dati sono raccolti secondo una certa distribuzione (non nel modello), il posteriore si concentrerà effettivamente attorno al punto nel modello che è più vicino alla verità nella divergenza di KL. Ora, se hai a che fare con modelli non parametrici di grandi dimensioni e il modello è corretto, allora (essenzialmente) il tuo posteriore si concentrerà comunque sulla vera distribuzione, dati sufficienti, fintanto che il tuo precedente mette massa sufficiente in piccole sfere KL attorno alla vera distribuzione. Questo è ilcondizione debole necessaria per la convergenza nel caso non parametrico se il modello è corretto.

Ma se il tuo modello non è parametrico ma non è corretto, il posteriore potrebbe semplicemente non concentrarsi intorno al punto KL più vicino, anche se il tuo precedente mette la massa vicino a 1 (!) Lì - il tuo posteriore potrebbe rimanere per sempre confuso, concentrandosi su distribuzioni sempre diverse col passare del tempo, ma mai intorno al migliore. Nei miei articoli ho diversi esempi di ciò che sta accadendo. I documenti che mostrano convergenza sotto errata specificazione (ad esempio Kleijn e van der Vaart) richiedono molte condizioni aggiuntive, ad esempio il modello deve essere convesso o il precedente deve obbedire ad alcune proprietà (complicate). Questo è ciò che intendo per condizioni "rigorose".

In pratica abbiamo spesso a che fare con modelli parametrici ma di altissima dimensione (si pensi alla regressione della cresta bayesiana, ecc.). Quindi se il modello è sbagliato, alla fine il tuo posteriore si concentrerà sulla migliore distribuzione KL nel modello ma una mini-versione dell'incongruenza non parametrica è ancora valida: potrebbero essere necessari ordini di grandezza più dati prima che avvenga la convergenza - di nuovo, il mio documento con Van Ommen fornisce esempi.

L'approccio SafeBayes modifica gli alloggiamenti standard in modo da garantire la convergenza nei modelli non parametrici nelle (essenzialmente) stesse condizioni del caso ben specificato, ovvero una massa precedente sufficiente vicino alla distribuzione ottimale di KL nel modello (G. e Mehta, 2014 ).

Quindi c'è la questione se Bayes abbia persino giustificazioni sotto errata specificazione. IMHO (e come menzionato anche da diverse persone sopra), le giustificazioni standard di Bayes (ammissibilità, Savage, De Finetti, Cox ecc.) Non valgono qui (perché se ti rendi conto che il tuo modello non è specificato correttamente, le tue probabilità non rappresentano le tue vere credenze !). TUTTAVIA molti metodi di Bayes possono anche essere interpretati come "metodi di lunghezza minima di descrizione (MDL)" - MDL è un metodo teorico dell'informazione che identifica "l'apprendimento dai dati" con "il tentativo di comprimere il più possibile". Questa interpretazione della compressione dei dati di (alcuni) metodi bayesiani rimane valida sotto errata specificazione. Quindi ce ne sono ancora alcuniinterpretazione sottostante che regge sotto errata specificazione - tuttavia, ci sono problemi, come mostra il mio documento con van Ommen (e il problema dell'intervallo di confidenza / serie credibile menzionato nel post originale).

E poi un'ultima osservazione sul post originale: menzioni la giustificazione della "ammissibilità" di Bayes (risalendo alla classe completa di Wald degli anni '40 / '50). Il fatto che questa sia o meno una giustificazione di Bayes dipende davvero molto dalla propria precisa definizione di "inferenza bayesiana" (che differisce da ricercatore a ricercatore ...). Il motivo è che questi risultati di ammissibilità consentono la possibilità che si utilizzi un precedente che dipende da aspetti del problema come la dimensione del campione, la funzione di perdita di interesse ecc. La maggior parte dei bayesiani "reali" non vorrebbe cambiare il loro precedente se la quantità di i dati che devono elaborare le modifiche o se la funzione di perdita di interesse viene improvvisamente modificata. Ad esempio, con funzioni di perdita strettamente convesse, Anche gli stimatori minimax sono ammissibili, sebbene di solito non siano considerati bayesiani! Il motivo è che per ogni dimensione fissa del campione, sono equivalenti a Bayes con un particolare precedente, ma il precedente è diverso per ciascuna dimensione del campione.

Spero che questo sia utile!


2
Benvenuto in CrossValidated e grazie per aver risposto a questa domanda. Una nota minore: non puoi fare affidamento sul fatto che le risposte vengano ordinate nello stesso ordine in cui le vedi; persone diverse possono ordinare in diversi ordini (c'è una scelta di criteri di ordinamento diversi nella parte superiore della risposta più alta) e due di questi criteri cambiano nel tempo. Cioè se ti riferisci a loro come "nr 3 e 20" le persone non sapranno quali risposte intendi. [Posso trovare anche solo dieci risposte.]
Glen_b,

1
Grazie per un'ottima risposta, Peter. Sono confuso riguardo al tuo commento secondo cui l'inferenza bayesiana nel caso errato richiede presupposti molto forti. A quali ipotesi ti riferisci esplicitamente? Stai parlando della condizione che il posteriore deve convergere in una distribuzione dirac sul miglior valore del parametro? o stai parlando delle condizioni più tecniche sulla probabilità che assicurano la normalità asintotica?
Guillaume Dehaene,

Ok, grazie a Glen B (moderatore) - Lo terrò a mente d'ora in poi.
Peter Grünwald,

Guillaume - Sto aggiornando quanto sopra per tenere conto del tuo commento
Peter Grünwald,

7

C'è il solito compromesso di varianza. L'inferenza bayesiana ipotizzando il caso M-chiuso [1,2], ha una varianza minore [3] ma nel caso di errata specificazione del modello la distorsione cresce più velocemente [4]. È anche possibile fare l'inferenza bayesiana ipotizzando il caso M-aperto [1,2], che presenta una varianza maggiore [3] ma nel caso di errata specificazione del modello la distorsione è minore [4]. Dicussioni di questo compromesso di bias varianza tra casi M chiusi e M-aperti bayesiani compaiono anche in alcuni dei riferimenti inclusi nei riferimenti seguenti, ma è chiaramente necessario per di più.

[1] Bernardo and Smith (1994). Teoria Bayesiana. John Wiley \ & Sons.

[2] Vehtari e Ojanen (2012). Un'indagine sui metodi predittivi bayesiani per la valutazione, la selezione e il confronto dei modelli. Sondaggi statistici, 6: 142-228. http://dx.doi.org/10.1214/12-SS102

[3] Juho Piironen e Aki Vehtari (2017). Confronto tra metodi predittivi bayesiani per la selezione del modello. Statistica e informatica, 27 (3): 711-735. http://dx.doi.org/10.1007/s11222-016-9649-y .

[4] Yao, Vehtari, Simpson e Andrew Gelman (2017). Utilizzo dello stacking per distribuire in media le previsioni predittive bayesiane. arXiv prestampa arXiv: 1704.02030 arxiv.org/abs/1704.02030


7

Ecco alcuni altri modi per giustificare l'inferenza bayesiana in modelli non specificati.

  • È possibile costruire un intervallo di confidenza sulla media posteriore, usando la formula sandwich (nello stesso modo in cui si farebbe con l'MLE). Pertanto, anche se i set credibili non hanno copertura, è comunque possibile produrre intervalli di confidenza validi sugli stimatori punti, se è questo che ti interessa.

  • Puoi ridimensionare la distribuzione posteriore per garantire che gli insiemi credibili abbiano una copertura, che è l'approccio adottato:

Müller, Ulrich K. "Rischio di inferenza bayesiana in modelli non specificati e matrice di covarianza sandwich". Econometrica 81.5 (2013): 1805-1849.

  • Esiste una giustificazione non asintotica per la regola di Bayes: omettere le condizioni tecniche, se il precedente è e la probabilità logaritmica è , quindi la parte posteriore è la distribuzione che minimizza over tutte le distribuzioni . Il primo termine è come un'utilità attesa: vuoi mettere la massa su parametri che producono un'alta probabilità. Il secondo termine si regolarizza: vuoi una piccola divergenza di KL rispetto al precedente. Questa formula dice esplicitamente ciò che il posteriore sta ottimizzando. È usato molto nel contesto della quasi-verosimiglianza, dove le persone sostituiscono la verosimiglianza con un'altra funzione di utilità.p(θ)n(θ)n(θ)dν(θ)+log(ν(θ)p(θ))dν(θ)ν(θ)

Grazie per il documento Muller: penso che risponda a molte delle domande che ho.
Guillaume Dehaene,

6

supponiamo che il modello reale dei dati differisca da per tutti i valori diptrue(X)p(X|θ)θ

L'interpretazione bayesiana di questa ipotesi è che esiste una variabile casuale aggiuntiva e un valore nel suo intervallo tale che . Le tue conoscenze precedenti dicono che e . Quindi che non è una corretta distribuzione delle probabilità.ϕϕ0ϕ0p(X|θ,ϕ=ϕ0)dθ=0p(ϕ=ϕ0)1p(ϕϕ0)=0p(θ|X,ϕ=ϕ0)=0

Questo caso corrisponde a una regola di inferenza simile nella logica in cui , ovvero non si può dedurre nulla da una contraddizione. Il risultato è un modo in cui la teoria della probabilità bayesiana ti dice che la tua conoscenza precedente non è coerente con i tuoi dati. Se qualcuno non è riuscito a ottenere questo risultato nella sua derivazione del posteriore, significa che la formulazione non è riuscita a codificare tutte le conoscenze precedenti rilevanti. Per quanto riguarda la valutazione di questa situazione, passo a Jaynes (2003, p.41):A,¬Ap(θ|X,ϕ=ϕ0)=0

... è un potente strumento analitico che può cercare una serie di proposizioni e rilevare una contraddizione in esse se ne esiste una. Il principio è che non esistono probabilità condizionate da premesse contraddittorie (lo spazio delle ipotesi è ridotto all'insieme vuoto). Pertanto, mettiamo al lavoro il nostro robot; cioè scrivere un programma per calcolare le probabilità base a una serie di proposizioni Anche se dall'ispezione non è evidente alcuna contraddizione, se c'è una contraddizione nascosta inp(B|E)E=(E1,E2,,En)E, il programma per computer si arresterà in modo anomalo. L'abbiamo scoperto, empiricamente, '' e dopo alcuni pensieri abbiamo capito che non è una ragione di sgomento, ma piuttosto un prezioso strumento diagnostico che ci avvisa di casi speciali imprevisti in cui la nostra formulazione di un problema può guastarsi.

In altre parole, se la tua formulazione del problema è inaccurata - se il tuo modello è sbagliato, le statistiche bayesiane possono aiutarti a scoprire che è così e possono aiutarti a trovare quale aspetto del modello è la fonte del problema.

In pratica, potrebbe non essere del tutto chiaro quale conoscenza sia rilevante e se debba essere inclusa nella derivazione. Vengono quindi utilizzate varie tecniche di verifica dei modelli (i capitoli 6 e 7 di Gelman et al., 2013, forniscono una panoramica) per scoprire e identificare una formulazione imprecisa del problema.

Gelman, A., Carlin, JB, Stern, HS, Dunson, DB, Vehtari, A. e Rubin, DB (2013). Analisi dei dati bayesiani, terza edizione. Chapman & Hall / CRC.

Jaynes, ET (2003). Teoria della probabilità: la logica della scienza. Pressa universitaria di Cambridge.


1
Alla tua risposta manca il punto e stai considerando una situazione più semplice. Non considero una situazione in cui il nostro modello è così sbagliato che non è coerente con i dati. Guardo una situazione in cui il nostro modello è sbagliato, ma non in modo catastrofico. Ad esempio, considera di dedurre la media di . Potresti usare un modello gaussiano di per deduzione, anche se il modello reale è Laplace. In questo semplice esempio, il modello è sbagliato ma non "esploderà" come quello che descrivi. XiXi
Guillaume Dehaene,

1
@GuillaumeDehaene La tua domanda era se ci sono alcuni argomenti per usare bayes quando il modello è specificato male. Chiaramente, il modello catastroficamente erroneamente specificato è errato. Inoltre, non puoi sapere ad Apriori se il tuo modello è catastroficamente erroneamente specificato o semplicemente errato. In effetti bayes può dirti esattamente questo, il che lo rende utile e la mia risposta lo ha sottolineato.
matus,

Se non è catrastricamente sbagliato, la copertura non sarà così diversa da . È possibile scrivere una simulazione di questo modello normale con i dati di Laplacian per verificarlo. I benefici concettuali sarebbero sempre presenti. Pensaci: se decidi di buttare il posteriore fuori dalla finestra, non calcoleresti solo l'MLE, ma anche un intervallo di confidenza. Ma sappiamo che l'interpretazione dell'IC calcolata per UN particolare esperimento è rubish. Quindi rilassati e goditi la birra bayesiana. Se si comprende che il modello non è specificato correttamente, utilizzare queste informazioni per crearne uno migliore. 1α
Zen,

@GuillaumeDehaene Sì, la mia risposta non è esaustiva. Lo estendo volentieri per chiarire casi non catastrofici, ma è necessario specificare ciò che hai in mente: vuoi dire che dove è un numero piccolo in modo che sia piccolo? O stai dicendo che esiste tale che eppure o qualcos'altro? Concordo con lo Zen sul fatto che in genere i posteriori non saranno interessati molto in questi casi meno gravi, sebbene si possa costruire un caso limite. p(X,θ|ϕ=ϕ0)dθ=kkp(X|ϕ=ϕ0)θ=θ0p(θ=θ0|ϕ=ϕ0)=0p(X,θ=θk|ϕ=ϕ0)>0
matus,

5

L'MLE è ancora uno stimatore per un parametro in un modello specificato e ritenuto corretto. I coefficienti di regressione in un OLS frequentista possono essere stimati con l'MLE e tutte le proprietà che si desidera associare ad esso (imparziale, una varianza asintotica specifica) presuppongono comunque che il proprio modello lineare molto specifico sia corretto.

Farò un ulteriore passo avanti e dirò che ogni volta che vuoi attribuire significato e proprietà a uno stimatore devi assumere un modello. Anche quando si prende una media campionaria semplice, si presume che i dati siano scambiabili e spesso IID.

Ora, gli stimatori bayesiani hanno molte proprietà desiderabili che un MLE potrebbe non avere. Ad esempio, raggruppamento parziale, regolarizzazione e interpretabilità di un posteriore che lo rendono desiderabile in molte situazioni.


Non è necessario assumere IID come mezzo per dare significato. Basti pensare alla scambiabilità (ma, sì, è ancora un presupposto ...)
kjetil b halvorsen

@kjetil b halvorsen Grazie, ho modificato per chiarezza.
TrynnaDoStat,

4

Raccomando la filosofia di Gelman & Shalizi e la pratica delle statistiche bayesiane . Hanno risposte coerenti, dettagliate e pratiche a queste domande.

Pensiamo che la maggior parte di questa visione ricevuta dell'inferenza bayesiana sia sbagliata. I metodi bayesiani non sono più induttivi di qualsiasi altra modalità di inferenza statistica. L'analisi dei dati bayesiani è molto meglio compresa da una prospettiva ipotetico-deduttiva . Nella migliore pratica bayesiana è implicita una posizione che ha molto in comune con l'approccio errore-statistico di Mayo (1996), nonostante l'orientamento frequentista di quest'ultimo. In effetti, parti cruciali dell'analisi dei dati bayesiani, come la verifica dei modelli, possono essere intese come "sonde di errore" nel senso di Mayo.

Procediamo combinando l'esame di casi concreti di analisi dei dati bayesiani nella ricerca empirica in scienze sociali e risultati teorici sulla coerenza e la convergenza dell'aggiornamento bayesiano. L'analisi dei dati socio-scientifici è particolarmente saliente per i nostri scopi perché esiste un accordo generale sul fatto che, in questo campo, tutti i modelli in uso sono sbagliati, non solo falsificabili, ma in realtà falsi. Con dati sufficienti - e spesso solo una quantità abbastanza moderata - qualsiasi analista potrebbe rifiutare qualsiasi modello ora in uso a qualsiasi livello di confidenza desiderato . Il fitting dei modelli è comunque un'attività preziosa, e in effetti il ​​punto cruciale dell'analisi dei dati. Per capire perché è così, dobbiamo esaminare come vengono costruiti, montati, usati e controllati i modelli e gli effetti della mancata specificazione sui modelli.

...

A nostro avviso, il resoconto dell'ultimo paragrafo [della visione standard bayesiana] è fondamentalmente sbagliato. Il processo di analisi dei dati - bayesiano o altro - non termina con il calcolo delle stime dei parametri o delle distribuzioni posteriori. Piuttosto, il modello può quindi essere verificato, confrontando le implicazioni del modello adattato con l'evidenza empirica. Uno pone domande come se le simulazioni del modello adattato assomigliano ai dati originali, se il modello adattato è coerente con altri dati non utilizzati nell'adattamento del modello e se le variabili che il modello dice sono rumore ("termini di errore") in infatti visualizza modelli facilmente rilevabili. Le discrepanze tra il modello e i dati possono essere utilizzate per conoscere i modi in cui il modello è inadeguato per gli scopi scientifici a portata di mano, e quindi per motivare espansioni e modifiche al modello (Sezione 4.).


2

Penso che stai descrivendo un impatto dell'incertezza del modello - temi che la tua deduzione su un parametro sconosciuto alla luce dei dati sia condizionata da un modello, , così come dai dati. E se è un modello non plausibile? Se esistono modelli alternativi, con lo stesso parametro sconosciuto , è possibile emarginare l'incertezza del modello con la media del modello bayesiano, anche se questo è una funzionalità dei modelli considerati e dei loro priori.xdm

p(x|d,m),
mx
p(x|d)=mp(x|d,m)p(m|d)

Se, d'altra parte, la definizione del parametro è intrinsecamente legata al modello , tale che non ci sono alternative, non sorprende affatto che le inferenze su siano condizionate da . xmxm


3
La media dei modelli non può salvarci: è ancora assurdo supporre che il vero modello rientri in qualche modo nella portata del nostro modello più grande. Con il confronto tra modelli, possiamo determinare quale dei vari modelli fornisce il miglior resoconto dei dati, ma questo restituisce solo un modello sbagliato che è meno sbagliato rispetto agli altri modelli.
Guillaume Dehaene il

Può aiutarti a fare inferenze / stime su una quantità sconosciuta che incorpora coerentemente l'incertezza del modello. Tuttavia, non può inventare nuove ipotesi per te. Se esistesse un meccanismo statistico che ha inventato modelli alla luce dei dati, ad esempio la scienza sarebbe molto più semplice.
Innisfree

1

Come si definisce che cos'è un modello "mal specificato"? Questo significa che il modello ...

  • fa previsioni "cattive"?
  • non è in forma per qualche "modello vero"? pT(x)
  • manca un parametro?
  • porta a conclusioni "cattive"?

Se pensate ai modi in cui un determinato modello potrebbe essere specificato in modo errato, essenzialmente estrarrete informazioni su come realizzare un modello migliore. Includi quelle informazioni extra nel tuo modello!

Se pensi a cosa sia un "modello" nel framework bayesiano, puoi sempre creare un modello che non può essere specificato in modo errato. Un modo per farlo è aggiungendo più parametri al tuo modello attuale. Aggiungendo più parametri, rendi il tuo modello più flessibile e adattabile. I metodi di Machine Learning sfruttano appieno questa idea. Questo è alla base di "reti nuziali" e "alberi di regressione". È necessario pensare ai priori (simile alla regolarizzazione per ML).

Ad esempio, hai fornito il "modello lineare" come esempio, quindi hai ... Where . Supponiamo ora di aggiungere un nuovo parametro per ogni osservazione .... Dove come prima. In che modo questo cambia le cose? Si potrebbe dire "il modello 1 è specificato in modo errato se il modello 2 è vero". Ma il modello 2 è più difficile da stimare, poiché ha molti più parametri. Inoltre, se le informazioni su sono ciò che ci interessa, importa se il modello 1 è "sbagliato"?

model 1: xi=θ+σei
eiN(0,1)
model 2: xi=θ+σeiwi

eiN(0,1)θ

Se supponi che (come un "modello 2a"), in pratica abbiamo "errori cauchy" invece di "errori normali" e il modello prevede valori anomali nei dati. Quindi, aggiungendo parametri al tuo modello e scegliendo un precedente per loro, ho creato un "modello più robusto". Tuttavia, il modello prevede ancora simmetria nei termini di errore. Scegliendo un precedente diverso, questo potrebbe essere giustificato anche ...wiN(0,1)


E più parametri usi, più dati hai bisogno. Se le informazioni in su sono scarse, l'aggiunta di parametri non sarà di aiuto. Con i nuovi dati, il DGP è ancora meno costante, quindi hai di nuovo bisogno di più parametri e così via. Più generale è il modello (più parametri), meno è probabile che sia "erroneamente specificato", ma più dati è necessario stimare. Al contrario, meno chiedete al vostro modello, meno dati avrete bisogno. Ma ciò significa in realtà quanto "giusto" è probabilmente il modello se un momento pieno rispetto a un momento condizionale? xf(x)
IMA
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.