"Dimenticanza" del priore nell'ambientazione bayesiana?


9

E 'ben noto che quando si dispone di ulteriori elementi di prova (ad esempio sotto forma di grande per esempi IID), il bayesiano prima viene "dimenticato", e la maggior parte l'inferenza è influenzato dalle prove (o la probabilità).nn

È facile vederlo per vari casi specifici (come Bernoulli con Beta precedente o altri tipi di esempi) - ma c'è un modo per vederlo nel caso generale con e qualche precedente ?x1,,xnp(x|μ)p(μ)

EDIT: Immagino che non possa essere mostrato nel caso generale per nessun precedente (per esempio, un punto-massa anteriore manterrebbe il posteriore una massa-punto). Ma forse ci sono alcune condizioni in cui si dimentica un priore.

Ecco il tipo di "percorso" che sto pensando di mostrare qualcosa del genere:

Supponiamo che lo spazio dei parametri sia e che e siano due priori che posizionano una massa di probabilità diversa da zero su tutto . Quindi, i due calcoli posteriori per ogni precedente ammontano a:Θp(θ)q(θ)Θ

p(θ|x1,,xn)=ip(xi|θ)p(θ)θip(xi|θ)p(θ)dθ

e

q(θ|x1,,xn)=ip(xi|θ)q(θ)θip(xi|θ)q(θ)dθ

Se dividi per (i posteriori), ottieni:pq

p(θ|x1,,xn)/q(θ|x1,,xn)=p(θ)θip(xi|θ)q(θ)dθq(θ)θip(xi|θ)p(θ)dθ

Ora vorrei esplorare il termine sopra come va a . Idealmente, andrebbe a per un certo che "ha senso" o qualche altro comportamento simpatico, ma non riesco a capire come mostrare qualcosa lì.n1θ


1
Per un po 'di intuizione, nota che la probabilità si ridimensiona con la dimensione del campione mentre il precedente no.
Macro

@Macro, grazie, ho avuto anche quell'intuizione, ma non ho potuto spingerlo oltre. Vedi le mie modifiche sopra.
bayesianOrFrequentist

I primi capitoli del libro di testo di Ghosh e Ramamoorthi Bayesian Nonparametrics completano il genere di cose di cui stai parlando (dapprima in un'impostazione parametrica, poi non parametrica); è disponibile gratuitamente tramite Springer online se ti trovi in ​​un istituto appropriato. Esistono diversi modi per formalizzare la mancanza di dipendenza dal precedente asintoticamente, ma ovviamente ci sono alcune condizioni di regolarità.
ragazzo

Si noti che il rapporto posteriore è solo proporzionale al rapporto precedente, quindi la probabilità o il rapporto di evidenza non influenza questo.
Probislogic

Risposte:


3

Solo una risposta approssimativa, ma speriamo intuitiva.

  1. Guardalo dal punto di vista dello spazio-log: dove è una costante che dipende dai dati, ma non dal parametro, e dove le tue probabilità assumono osservazioni. Quindi, concentrati solo sulla parte che determina la forma del tuo posteriore, ovvero

    logP(θ|x1,,xn)=logP(θ)i=1nlogP(xi|θ)Cn
    Cn>0
    Sn=logP(θ)i=1nlogP(xi|θ)
  2. Si supponga che v'è una tale che . Questo è ragionevole per distribuzioni discrete.D>0logP(θ)D

  3. Poiché i termini sono tutti positivi, "crescerà" (sto saltando i tecnicismi qui). Ma il contributo del priore è delimitata da . Quindi, la frazione fornita dal precedente, che è al massimo , diminuisce monotonicamente ad ogni ulteriore osservazione.SnDD/Sn

Naturalmente, le prove rigorose devono affrontare i tecnicismi (e possono essere molto difficili), ma l'impostazione sopra è IMHO la parte molto semplice.


0

Sono un po 'confuso da ciò che dovrebbero significare le affermazioni che il "priore viene dimenticato" e "la maggior parte dell'inferenza è influenzata dalle prove". Suppongo che intendi quando la quantità di dati aumenta, lo stimatore (la sequenza di) si avvicina al valore reale del parametro indipendentemente dal nostro precedente.

Supponendo alcune condizioni di regolarità sulla forma della distribuzione posteriore, gli stimatori di Bayes sono coerenti e asintoticamente imparziali (vedere Gelman et al, capitolo 4 ). Ciò significa che quando la dimensione del campione aumenta, lo stimatore di bayes si avvicina al valore reale del parametro. Coerenza significa che lo stimatore di bayes converge in probabilità al vero valore del parametro e l'imparzialità asintotica significa che, supponendo che sia il vero valore del parametro,θ0

E[θ^|θ0]θ0Var(θ^)p0

La convergenza non dipende dalla forma specifica del priore, ma solo dal fatto che la distribuzione posteriore ottenuta dal priore e la probabilità soddisfano le condizioni di regolarità.

La condizione di regolarità più importante menzionata in Gelman et al. È che la probabilità sia una funzione continua del parametro e che il valore reale del parametro sia all'interno dello spazio dei parametri. Inoltre, come hai notato, il posteriore deve essere diverso da zero in una zona aperta del vero valore del vero valore del parametro. Di solito, il tuo precedente dovrebbe essere diverso da zero sull'intero spazio dei parametri.


grazie, molto perspicace. In realtà speravo in un risultato che non si riferisse nemmeno al valore del parametro "vero". Sto solo dimostrando che tecnicamente, poiché hai più prove, il posteriore che otterrai sarà lo stesso indipendentemente dal precedente con cui hai iniziato. Ho intenzione di apportare alcune modifiche per riflettere ciò.
bayesianOrFrequentist

@bayesianOrFrequentist Dai un'occhiata al cosiddetto teorema del limite centrale bayesiano .
Stéphane Laurent
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.