Rapporto di probabilità vs fattore di Bayes


61

Sono piuttosto evangelista per quanto riguarda l'uso dei rapporti di probabilità per rappresentare l'evidenza oggettiva a favore / contro un dato fenomeno. Tuttavia, recentemente ho appreso che il fattore Bayes svolge una funzione simile nel contesto dei metodi bayesiani (cioè il priore soggettivo è combinato con il fattore obiettivo Bayes per produrre uno stato soggettivo oggettivamente aggiornato). Sto ora cercando di capire le differenze computazionali e filosofiche tra un rapporto di verosimiglianza e un fattore di Bayes.

A livello computazionale, capisco che mentre il rapporto di verosimiglianza viene solitamente calcolato utilizzando le probabilità che rappresentano la massima verosimiglianza per la rispettiva parametrizzazione di ciascun modello (stimata per convalida incrociata o penalizzata in base alla complessità del modello usando AIC), apparentemente il fattore Bayes utilizza in qualche modo probabilità che rappresentano la probabilità di ciascun modello integrato nel suo intero spazio di parametri (cioè non solo nel MLE). Come viene effettivamente raggiunta questa integrazione in genere? Si prova davvero a calcolare la probabilità di ciascuna delle migliaia (milioni?) Di campioni casuali dallo spazio dei parametri o esistono metodi analitici per integrare la probabilità nello spazio dei parametri? Inoltre, quando si calcola il fattore Bayes,

Inoltre, quali sono le differenze filosofiche tra il rapporto di verosimiglianza e il fattore di Bayes (nb non sto chiedendo delle differenze filosofiche tra il rapporto di verosimiglianza e i metodi bayesiani in generale, ma il fattore di Bayes come rappresentazione dell'evidenza oggettiva in particolare). Come si potrebbe caratterizzare il significato del fattore Bayes rispetto al rapporto di verosimiglianza?


5
Hai considerato l' esempio in Wikipedia
Henry,

1
Il libro di Chen, Shao e Ibrahim (2000) è dedicato al calcolo Monte Carlo dei fattori di Bayes.
Xi'an,

Risposte:


36

apparentemente il fattore Bayes usa in qualche modo le probabilità che rappresentano la probabilità di ogni modello integrato sul suo intero spazio di parametri (cioè non solo al MLE). Come viene effettivamente raggiunta questa integrazione in genere? Si prova davvero a calcolare la probabilità di ciascuna delle migliaia (milioni?) Di campioni casuali dallo spazio dei parametri o esistono metodi analitici per integrare la probabilità nello spazio dei parametri?

P(D|M)DM

È importante mettere i fattori di Bayes nella giusta impostazione. Quando hai due modelli, diciamo, e converti da probabilità a probabilità, i fattori di Bayes agiscono come un operatore su credenze precedenti:

PosteriorOdds=BayesFactorPriorOdds
P(M1|D)P(M2|D)=B.F.×P(M1)P(M2)

La vera differenza è che i rapporti di probabilità sono più economici da calcolare e generalmente concettualmente più facili da specificare. La probabilità al MLE è solo una stima puntuale del numeratore e denominatore del fattore Bayes, rispettivamente. Come la maggior parte delle costruzioni frequentiste, può essere visto come un caso speciale di analisi bayesiana con un precedente inventato che è difficile da raggiungere. Ma soprattutto è nato perché è analiticamente trattabile e più facile da calcolare (nell'era prima che sorgessero approcci computazionali bayesiani approssimativi).

Per quanto riguarda il calcolo, sì: valuterete i diversi integrali della probabilità in ambito bayesiano con una procedura Monte Carlo su larga scala in quasi tutti i casi di interesse pratico. Esistono alcuni simulatori specializzati, come GHK, che funzionano se si assumono determinate distribuzioni e, se si fanno queste ipotesi, a volte è possibile trovare problemi analiticamente trattabili per i quali esistono fattori Bayes completamente analitici.

Ma nessuno li usa; non c'è motivo di farlo. Con i campionatori Metropolis / Gibbs ottimizzati e altri metodi MCMC, è totalmente trattabile affrontare questi problemi in modo completamente guidato dai dati e calcolare gli integrali numericamente. In effetti, uno spesso lo farà gerarchicamente e integrerà ulteriormente i risultati su meta-priori che si riferiscono a meccanismi di raccolta dati, progetti sperimentali non ignorabili, ecc.

Raccomando il libro Bayesian Data Analysis per ulteriori informazioni al riguardo. Anche se l'autore, Andrew Gelman, sembra non curarsi troppo dei fattori di Bayes . A parte questo, sono d'accordo con Gelman. Se stai per diventare bayesiano, allora sfrutta l'intero posteriore. Fare la selezione del modello con metodi bayesiani è come disabilitarli, perché la selezione del modello è una forma di inferenza debole e per lo più inutile. Preferirei conoscere le distribuzioni sulle scelte del modello se posso ... chi se ne frega di quantizzarlo fino a "il modello A è meglio del modello B" tipo di affermazioni quando non è necessario?

Inoltre, quando si calcola il fattore di Bayes, si applica la correzione per la complessità (automaticamente tramite stima convalidata in modo incrociato della probabilità o analiticamente tramite AIC) come si fa con il rapporto di probabilità?

M1M2d1d2d1<d2N

B1,2M1M1NB1,2

B1,2=O(N12(d2d1))

Conosco bene questa derivazione e la discussione dal libro Finite Mixture e Markov Switching Models di Sylvia Frühwirth-Schnatter, ma probabilmente ci sono resoconti statistici più diretti che si immergono maggiormente nell'epistemologia sottostante.

Non conosco i dettagli abbastanza bene per fornirli qui, ma credo che ci siano alcune connessioni teoriche abbastanza profonde tra questo e la derivazione di AIC. Il libro sulla teoria dell'informazione di Cover e Thomas ha suggerito almeno questo.

Inoltre, quali sono le differenze filosofiche tra il rapporto di verosimiglianza e il fattore di Bayes (nb non sto chiedendo delle differenze filosofiche tra il rapporto di verosimiglianza e i metodi bayesiani in generale, ma il fattore di Bayes come rappresentazione dell'evidenza oggettiva in particolare). Come si potrebbe caratterizzare il significato del fattore Bayes rispetto al rapporto di verosimiglianza?

La sezione dell'articolo di Wikipedia su "Interpretazione" fa un buon lavoro nel discuterne (specialmente il grafico che mostra la scala di forza dell'evidenza di Jeffreys).

Come al solito, non ci sono troppe cose filosofiche al di là delle differenze di base tra i metodi bayesiani e i metodi frequentisti (a cui sembri già familiare).

La cosa principale è che il rapporto di verosimiglianza non è coerente nel senso di un libro olandese. È possibile creare scenari in cui l'inferenza di selezione del modello dai rapporti di probabilità porterà ad accettare scommesse perdenti. Il metodo bayesiano è coerente, ma opera su un precedente che potrebbe essere estremamente scarso e deve essere scelto soggettivamente. Svantaggi .. compromessi ...

FWIW, penso che questo tipo di selezione del modello fortemente parametrizzata non sia una buona deduzione. Preferisco i metodi bayesiani e preferisco organizzarli in modo più gerarchico e voglio che l'inferenza si concentri sulla distribuzione posteriore completa se è assolutamente fattibile dal punto di vista computazionale. Penso che i fattori Bayes abbiano alcune proprietà matematiche ordinate, ma come Bayesiano me stesso, non ne sono impressionato. Nascondono la parte davvero utile dell'analisi bayesiana, che è che ti costringe a trattare i tuoi priori all'aperto invece di spazzarli sotto il tappeto, e ti consente di fare deduzione su tutti i lati.


"Come al solito, non ci sono troppe cose filosofiche al di là delle differenze di base tra i metodi bayesiani e i metodi frequentisti (che sembri già familiari). La cosa principale è che il test del rapporto di verosimiglianza ..." Solo un punto di chiarimento, non l'ho fatto non intendo confrontare i fattori di Bayes con i test del rapporto di verosimiglianza , ma con i rapporti di probabilità da soli, senza bagaglio di test di ipotesi nullo / frequentista.
Mike Lawrence,

In base al mio chiarimento sopra: pertanto, mi sembra che la grande differenza tra BF e LR sia che, come dici tu, il primo si auto-corregge per la complessità ma richiede un sacco di calcoli mentre il secondo richiede un calcolo molto meno ma richiede una correzione esplicita per la complessità del modello (o usando AIC, che è veloce dal punto di vista computazionale, o convalida incrociata, che è piuttosto più costoso dal punto di vista computazionale).
Mike Lawrence,

Spiacenti, il test del rapporto di verosimiglianza era un errore di battitura, avrebbe dovuto essere solo un rapporto di verosimiglianza. Penso che tu abbia principalmente ragione, ma ti manca ancora il quadro più ampio che il rapporto di probabilità è solo una stima puntuale. Sarà utile solo se le distribuzioni di probabilità sottostanti si comportano bene fino a un'approssimazione quadratica nelle vicinanze del MLE. I fattori di Bayes non devono preoccuparsi delle proprietà di distribuzione asintotica come questa, quindi è specificamente più generale. Si sussume MLE a base di inferenza di selezione del modello.
ely,

1
Per dirla in altro modo, il MLE può essere visto come il massimo stimatore a posteriori (MAP), solo con un precedente improprio (quando l'integrazione lo consente), e MAP è una stima del punto più convincente poiché incorpora informazioni preliminari. Ora, invece di scegliere semplicemente la modalità del posteriore ... perché non combinare tutti i valori del posteriore in base alla loro probabilità precedente? Non ti darà una stima puntuale dei parametri, ma molto spesso le persone non vogliono davvero una stima puntuale. Le distribuzioni sui parametri sono sempre più utili delle stime puntuali quando puoi permetterti di ottenerle
ely

11

Per comprendere la differenza tra i rapporti di probabilità e i fattori di Bayes, è utile considerare una caratteristica chiave dei fattori di Bayes in modo più dettagliato:

In che modo i fattori Bayes riescono a rendere automaticamente conto della complessità dei modelli sottostanti?

Una prospettiva su questa domanda è quella di considerare i metodi per inferenza approssimativa deterministica. Bayes variazionale è uno di questi metodi. Può non solo ridurre drasticamente la complessità computazionale delle approssimazioni stocastiche (ad es. Campionamento MCMC). Bayes variazionali forniscono anche una comprensione intuitiva di ciò che costituisce un fattore Bayes.

Ricordiamo innanzitutto che un fattore di Bayes si basa sulle evidenze del modello di due modelli concorrenti,

BF1,2=p(dataM1)p(dataM2),

dove le singole prove del modello dovrebbero essere calcolate da un integrale complicato:

p(dataMi)=p(dataθ,Mi) p(θMi) dθ

p(θdata,Mi)

q(θ)p(θdata,Mi)

F

F=logp(dataMi)KL[q(θ)||p(θdata,Mi)]

q(θ)p(θdata,Mi)F

Ora possiamo tornare alla domanda originale su come un fattore Bayes bilanci automaticamente la bontà di adattamento e la complessità dei modelli coinvolti. Si scopre che l'energia libera negativa può essere riscritta come segue:

F=p(dataθ,Mi)qKL[q(θ)||p(θMi)]

Il primo termine è la probabilità logaritmica dei dati previsti nella parte posteriore approssimativa; rappresenta la bontà di adattamento (o accuratezza ) del modello. Il secondo termine è la divergenza KL tra il posteriore approssimativo e il precedente; rappresenta la complessità del modello, nella prospettiva che un modello più semplice è uno che è più coerente con le nostre precedenti convinzioni, o nella vista che un modello più semplice non deve essere allungato tanto per accogliere i dati.

L'approssimazione di energia libera all'evidenza del modello di registro mostra che l'evidenza del modello incorpora un compromesso tra la modellazione dei dati (vale a dire, la bontà di adattamento) e il rimanere coerenti con il nostro precedente (cioè, semplicità o complessità negativa).

Un fattore di Bayes (in contrasto con un rapporto di verosimiglianza) indica quindi quale dei due modelli concorrenti è migliore nel fornire una spiegazione semplice ma accurata dei dati.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.