apparentemente il fattore Bayes usa in qualche modo le probabilità che rappresentano la probabilità di ogni modello integrato sul suo intero spazio di parametri (cioè non solo al MLE). Come viene effettivamente raggiunta questa integrazione in genere? Si prova davvero a calcolare la probabilità di ciascuna delle migliaia (milioni?) Di campioni casuali dallo spazio dei parametri o esistono metodi analitici per integrare la probabilità nello spazio dei parametri?
P( D | M)DM
È importante mettere i fattori di Bayes nella giusta impostazione. Quando hai due modelli, diciamo, e converti da probabilità a probabilità, i fattori di Bayes agiscono come un operatore su credenze precedenti:
Po s t e r i o r O dds = B a ye s Fa c t o r ∗ Pr i o r O ddS
P( M1| D)P( M2| D)= B . F. × P( M1)P( M2)
La vera differenza è che i rapporti di probabilità sono più economici da calcolare e generalmente concettualmente più facili da specificare. La probabilità al MLE è solo una stima puntuale del numeratore e denominatore del fattore Bayes, rispettivamente. Come la maggior parte delle costruzioni frequentiste, può essere visto come un caso speciale di analisi bayesiana con un precedente inventato che è difficile da raggiungere. Ma soprattutto è nato perché è analiticamente trattabile e più facile da calcolare (nell'era prima che sorgessero approcci computazionali bayesiani approssimativi).
Per quanto riguarda il calcolo, sì: valuterete i diversi integrali della probabilità in ambito bayesiano con una procedura Monte Carlo su larga scala in quasi tutti i casi di interesse pratico. Esistono alcuni simulatori specializzati, come GHK, che funzionano se si assumono determinate distribuzioni e, se si fanno queste ipotesi, a volte è possibile trovare problemi analiticamente trattabili per i quali esistono fattori Bayes completamente analitici.
Ma nessuno li usa; non c'è motivo di farlo. Con i campionatori Metropolis / Gibbs ottimizzati e altri metodi MCMC, è totalmente trattabile affrontare questi problemi in modo completamente guidato dai dati e calcolare gli integrali numericamente. In effetti, uno spesso lo farà gerarchicamente e integrerà ulteriormente i risultati su meta-priori che si riferiscono a meccanismi di raccolta dati, progetti sperimentali non ignorabili, ecc.
Raccomando il libro Bayesian Data Analysis per ulteriori informazioni al riguardo. Anche se l'autore, Andrew Gelman, sembra non curarsi troppo dei fattori di Bayes . A parte questo, sono d'accordo con Gelman. Se stai per diventare bayesiano, allora sfrutta l'intero posteriore. Fare la selezione del modello con metodi bayesiani è come disabilitarli, perché la selezione del modello è una forma di inferenza debole e per lo più inutile. Preferirei conoscere le distribuzioni sulle scelte del modello se posso ... chi se ne frega di quantizzarlo fino a "il modello A è meglio del modello B" tipo di affermazioni quando non è necessario?
Inoltre, quando si calcola il fattore di Bayes, si applica la correzione per la complessità (automaticamente tramite stima convalidata in modo incrociato della probabilità o analiticamente tramite AIC) come si fa con il rapporto di probabilità?
M1M2d1d2d1<d2N
B1,2M1M1N→∞B1,2∞
B1,2=O(N12(d2−d1))
Conosco bene questa derivazione e la discussione dal libro Finite Mixture e Markov Switching Models di Sylvia Frühwirth-Schnatter, ma probabilmente ci sono resoconti statistici più diretti che si immergono maggiormente nell'epistemologia sottostante.
Non conosco i dettagli abbastanza bene per fornirli qui, ma credo che ci siano alcune connessioni teoriche abbastanza profonde tra questo e la derivazione di AIC. Il libro sulla teoria dell'informazione di Cover e Thomas ha suggerito almeno questo.
Inoltre, quali sono le differenze filosofiche tra il rapporto di verosimiglianza e il fattore di Bayes (nb non sto chiedendo delle differenze filosofiche tra il rapporto di verosimiglianza e i metodi bayesiani in generale, ma il fattore di Bayes come rappresentazione dell'evidenza oggettiva in particolare). Come si potrebbe caratterizzare il significato del fattore Bayes rispetto al rapporto di verosimiglianza?
La sezione dell'articolo di Wikipedia su "Interpretazione" fa un buon lavoro nel discuterne (specialmente il grafico che mostra la scala di forza dell'evidenza di Jeffreys).
Come al solito, non ci sono troppe cose filosofiche al di là delle differenze di base tra i metodi bayesiani e i metodi frequentisti (a cui sembri già familiare).
La cosa principale è che il rapporto di verosimiglianza non è coerente nel senso di un libro olandese. È possibile creare scenari in cui l'inferenza di selezione del modello dai rapporti di probabilità porterà ad accettare scommesse perdenti. Il metodo bayesiano è coerente, ma opera su un precedente che potrebbe essere estremamente scarso e deve essere scelto soggettivamente. Svantaggi .. compromessi ...
FWIW, penso che questo tipo di selezione del modello fortemente parametrizzata non sia una buona deduzione. Preferisco i metodi bayesiani e preferisco organizzarli in modo più gerarchico e voglio che l'inferenza si concentri sulla distribuzione posteriore completa se è assolutamente fattibile dal punto di vista computazionale. Penso che i fattori Bayes abbiano alcune proprietà matematiche ordinate, ma come Bayesiano me stesso, non ne sono impressionato. Nascondono la parte davvero utile dell'analisi bayesiana, che è che ti costringe a trattare i tuoi priori all'aperto invece di spazzarli sotto il tappeto, e ti consente di fare deduzione su tutti i lati.