I priori bayesiani diventano irrilevanti con campioni di grandi dimensioni?


26

Quando eseguiamo l'inferenza bayesiana, operiamo massimizzando la nostra funzione di probabilità in combinazione con i priori che abbiamo sui parametri. Poiché la verosimiglianza è più conveniente, massimizziamo efficacemente usando un MCMC o comunque che genera le distribuzioni posteriori (usando un pdf per ogni parametro precedente e la probabilità di ciascun punto dati).Σln(precedente)+Σln(probabilità)

Se disponiamo di molti dati, la probabilità che ciò possa sopraffare qualsiasi informazione fornita dal precedente, con una semplice matematica. In definitiva, questo è buono e di progettazione; sappiamo che il posteriore convergerà nella stessa probabilità con più dati perché dovrebbe.

Per i problemi definiti dai coniugati priori, questo è persino provabile esattamente.

C'è un modo per decidere quando i priori non contano per una determinata funzione di probabilità e una certa dimensione del campione?


3
La tua prima frase non è giusta. L'inferenza bayesiana e l'algoritmo MCMC non massimizzano la probabilità.
niandra82,

5
Conoscete la probabilità marginale, i fattori di Bayes, la distribuzione predittiva anteriore / posteriore, il controllo predittivo anteriore / posteriore? questi sono i tipi di cose che useresti per confrontare i modelli in un paradigma bayesiano. Penso che questa domanda si riduce a se il fattore di Bayes, tra modelli che differiscono solo per il loro precedente, converge a 1 quando la dimensione del campione va all'infinito. Potresti anche voler mettere da parte i priori che vengono troncati all'interno dello spazio dei parametri implicato dalla probabilità, poiché ciò potrebbe potenzialmente impedire al bersaglio di convergere alla stima della massima verosimiglianza.
Zachary Blumenfeld

@ZacharyBlumenfeld: questa potrebbe essere considerata una risposta adeguata!
Xi'an

La forma corretta "massimizza la regola di Bayes"? Inoltre, i modelli con cui sto lavorando sono basati fisicamente, quindi gli spazi dei parametri troncati sono una necessità per il lavoro. (Concordo anche sul fatto che i tuoi commenti sono probabilmente una risposta, potresti renderli più chiari @ZacharyBlumenfeld?)
pixel

Risposte:


37

Non è così facile. Le informazioni nei dati sopraffanno le informazioni precedenti non solo le dimensioni del campione sono grandi, ma quando i dati forniscono informazioni sufficienti per sopraffare le informazioni precedenti. I priori non informativi vengono facilmente persuasi dai dati, mentre quelli fortemente informativi possono essere più resistenti. In casi estremi, con priori mal definiti, i tuoi dati potrebbero non essere in grado di superarli (ad es. Densità zero in alcune regioni).

Ricordiamo che secondo il teorema di Bayes utilizziamo due fonti di informazioni nel nostro modello statistico, dati fuori dati, informazioni precedenti e informazioni trasmesse dai dati in funzione di probabilità :

posterioreαprecedente×probabilità

Quando si utilizza un precedente non informativo (o la massima probabilità), cerchiamo di inserire nel nostro modello informazioni preliminari minime possibili. Con priori informativi portiamo una notevole quantità di informazioni nel modello. Quindi, sia i dati che i precedenti, ci informano quali valori dei parametri stimati sono più plausibili o credibili. Possono portare informazioni diverse e ciascuna di esse può sopraffare l'altra in alcuni casi.

Permettetemi di illustrarlo con un modello beta-binomiale di base (vedere qui per un esempio dettagliato ). Con un precedente "non informativo" , un campione abbastanza piccolo può essere sufficiente per sopraffarlo. Sui grafici qui sotto puoi vedere i priori (curva rossa), la probabilità (curva blu) e i posteriori (curva viola) dello stesso modello con diverse dimensioni del campione.

inserisci qui la descrizione dell'immagine

D'altra parte, puoi avere delle informazioni preliminari vicine al vero valore, che sarebbero anche facilmente, ma non così facilmente come quelle informative settimanali, persuase dai dati.

inserisci qui la descrizione dell'immagine

Il caso è molto diverso dal precedente informativo, quando è lontano da ciò che dicono i dati (usando gli stessi dati del primo esempio). In tal caso è necessario un campione più grande per superare il precedente.

inserisci qui la descrizione dell'immagine

Quindi non si tratta solo di dimensioni del campione, ma anche di quali sono i tuoi dati e quali sono i tuoi precedenti. Si noti che si tratta di un comportamento desiderato , poiché quando si utilizzano priori informativi desideriamo includere potenzialmente informazioni fuori dai dati nel nostro modello e ciò sarebbe impossibile se campioni di grandi dimensioni eliminassero sempre i priori.

A causa delle complicate relazioni posteriori-verosimili-precedenti, è sempre bene osservare la distribuzione posteriore ed eseguire alcuni controlli predittivi posteriori (Gelman, Meng e Stern, 1996; Gelman e Hill, 2006; Gelman et al, 2004). Inoltre, come descritto da Spiegelhalter (2004), è possibile utilizzare diversi priori, ad esempio "pessimisti" che esprimono dubbi su effetti di grandi dimensioni o "entusiasti" che sono ottimisti sugli effetti stimati. Confrontare il modo in cui diversi priori si comportano con i tuoi dati può aiutare a valutare in modo informale la misura in cui il posteriore è stato influenzato in precedenza.


Spiegelhalter, DJ (2004). Integrazione delle idee bayesiane nella valutazione dell'assistenza sanitaria. Statistical Science, 156-174.

Gelman, A., Carlin, JB, Stern, HS e Rubin, DB (2004). Analisi dei dati bayesiani. Chapman & Hall / CRC.

Gelman, A. and Hill, J. (2006). Analisi dei dati mediante regressione e modelli multilivello / gerarchici. Cambridge University Press.

Gelman, A., Meng, XL e Stern, H. (1996). Valutazione predittiva posteriore della forma fisica del modello tramite discrepanze realizzate. Statistica sinica, 733-760.


2
Bel contributo, grazie Tim. Vorrei aggiungere che il contrasto che esponi così bene qui potrebbe presentarsi anche all'interno dello stesso modello correlato a parametri diversi di quel modello. Vi possono essere alcuni parametri sui quali i dati offrono informazioni trascurabili, nel qual caso i priori possono servire in modo critico per fornire restrizioni identificative .
David C. Norris,

Nella prima matrice 3x3 di grafici, i grafici sono corretti? Il posteriore è completamente piatto fino a incluso n = 25?
MichiganWater

1
@MichiganWater ogni collezione di 9 grafici usa la stessa scala per l'asse y in modo che i valori più grandi non escano dallo schermo. Quindi sono piatti relativamente al caso in cui hai più dati. Se hai "ingrandito", non saranno piatti.
Tim

11

Quando eseguiamo l'inferenza bayesiana, operiamo massimizzando la nostra funzione di probabilità in combinazione con i priori che abbiamo sui parametri.

Questo non è in realtà ciò che la maggior parte dei praticanti considera l'inferenza bayesiana. È possibile stimare i parametri in questo modo, ma non lo definirei inferenza bayesiana.

L' inferenza bayesiana utilizza le distribuzioni posteriori per calcolare le probabilità posteriori (o rapporti di probabilità) per ipotesi concorrenti.

Le distribuzioni posteriori possono essere stimate empiricamente mediante le tecniche Monte Carlo o Markov-Chain Monte Carlo (MCMC).

Mettendo da parte queste distinzioni, la domanda

I priori bayesiani diventano irrilevanti con campioni di grandi dimensioni?

dipende ancora dal contesto del problema e da ciò che ti interessa.

Se ciò che ti interessa è la previsione, dato un campione già molto ampio, la risposta è generalmente sì, i priori sono asintoticamente irrilevanti *. Tuttavia, se ciò che ti interessa è la selezione del modello e il test dell'ipotesi bayesiana, allora la risposta è no, i priori contano molto e il loro effetto non si deteriorerà con la dimensione del campione.

* Qui, presumo che i priori non siano troncati / censurati oltre lo spazio dei parametri implicato dalla probabilità e che non siano così mal specificati da causare problemi di convergenza con densità quasi zero in regioni importanti. Il mio argomento è anche asintotico, che viene fornito con tutte le avvertenze regolari.

Densità predittiva

dN=(d1,d2,...,dN)diof(dN|θ)θ

π0(θ|λ1)π0(θ|λ2)λ1λ2

πN(θ|dN,λj)αf(dN|θ)π0(θ|λj)forj=1,2

θ*θNj~πN(θ|dN,λj)θ^N=maxθ{f(dN|θ)}θN1θN2θ^Nθ*ε>0

limNPr(|θNj-θ*|ε)=0j{1,2}limNPr(|θ^N-θ*|ε)=0

θNj=maxθ{πN(θ|dN,λj)}

f(d~|dN,λj)=Θf(d~|θ,λj,dN)πN(θ|λj,dN)dθf(d~|dN,θNj)f(d~|dN,θ*)

Selezione del modello e test di ipotesi

Se uno è interessato alla selezione del modello bayesiano e al test delle ipotesi, dovrebbe essere consapevole che l'effetto del precedente non svanisce in modo asintotico.

f(dN|model)

KN=f(dN|model1)f(dN|model2)
Pr(modelj|dN)=f(dN|modelj)Pr(modelj)Σl=1Lf(dN|modell)Pr(modell)

f(dN|λj)=Θf(dN|θ,λj)π0(θ|λj)dθ

f(dN|λj)=Πn=0N-1f(dn+1|dn,λj)
f(dN+1|dN,λj)f(dN+1|dN,θ*)f(dN|λ1)f(dN|θ*)f(dN|λ2)
f(dN|λ1)f(dN|λ2)p1
h(dN|M)=Θh(dN|θ,M)π0(θ|M)dθ
f(dN|λ1)h(dN|M)f(dN|λ2)h(dN|M)

5

Un altro problema da tenere presente è che puoi avere molti dati , ma avere ancora pochissime informazioni su determinati parametri nel tuo modello. In tali casi, anche un precedente leggermente informativo può essere estremamente utile quando si esegue l'inferenza.

A titolo di esempio sciocco, supponete di aver confrontato le medie di due gruppi e di avere 1.000.000 di campioni del gruppo 1 e 10 campioni del gruppo 2. Quindi avere chiaramente un precedente informativo sul gruppo 2 può migliorare l'inferenza, anche se avete raccolto oltre un milione campioni.

E mentre questo esempio può essere banale, inizia a condurre alcune implicazioni molto importanti. Se vogliamo comprendere alcuni fenomeni complessi, la cosa intelligente da fare è raccogliere molte informazioni sulle parti che non capiamo e meno informazioni sulle parti che capiamo. Se raccogliamo molti dati in questo modo, buttare via il precedente perché abbiamo molti dati è una scelta davvero sbagliata; abbiamo appena rallentato la nostra analisi perché non abbiamo perso tempo a raccogliere dati su cose che già conosciamo!

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.