Come può un precedente improprio portare a una corretta distribuzione posteriore?


22

Sappiamo che nel caso di un'adeguata distribuzione precedente,

P(θX)=P(Xθ)P(θ)P(X)

P(Xθ)P(θ) .

La solita giustificazione per questo passaggio è che la distribuzione marginale di , , è costante rispetto a e può quindi essere ignorata quando si ottiene la distribuzione posteriore.XP(X)θ

Tuttavia, nel caso di un precedente improprio, come fai a sapere che esiste effettivamente la distribuzione posteriore? Sembra che manchi qualcosa in questo argomento apparentemente circolare. In altre parole, se suppongo che il posteriore esista, capisco la meccanica di come derivare il posteriore, ma mi sembra che manchi la giustificazione teorica del perché esiste.

PS Riconosco anche che ci sono casi in cui un precedente improprio porta ad un posteriore improprio.

Risposte:


16

In genere accettiamo elementi posteriori da priori impropri se esiste ed è una distribuzione di probabilità valida (ad es. si integra esattamente a 1 rispetto al supporto). Essenzialmente questo si riduce a \ pi (X) = \ int \ pi (X \ mid \ theta) \ pi (\ theta) \, d \ theta essendo finito. Se questo è il caso, allora chiamiamo questa quantità \ pi (\ theta \ mid X) e la accettiamo come la distribuzione posteriore che vogliamo. Tuttavia, è importante notare che questa NON è una distribuzione posteriore, né una distribuzione di probabilità condizionale (questi due termini sono sinonimi nel contesto qui).π(θ) π(X)=π(Xθ)π(θ)

π(Xθ)π(θ)π(X)
π ( θ X )π(X)=π(Xθ)π(θ)dθπ(θX)

Ora, ho detto che accettiamo distribuzioni "posteriori" da priori impropri dato quanto sopra. Il motivo per cui sono accettati è perché il precedente ci darà ancora "punteggi" relativi nello spazio dei parametri; cioè, il rapporto dà significato alla nostra analisi. Il significato che otteniamo da priori impropri in alcuni casi potrebbe non essere disponibile in priori propri. Questa è una potenziale giustificazione per usarli. Vedi la risposta di Sergio per un esame più approfondito della motivazione pratica per i priori impropri.π ( θ 1 )π(θ)π(θ1)π(θ2)

Vale la pena notare che questa quantità ha anche proprietà teoriche desiderabili, Degroot & Schervish :π(θX)

I priori impropri non sono vere distribuzioni di probabilità, ma se pretendiamo che lo siano, calcoleremo le distribuzioni posteriori che si avvicinano ai posteriori che avremmo ottenuto usando priori coniugati adeguati con valori estremi dei precedenti iperparametri.


Sono confuso da alcune cose nella tua risposta. Dici che accettiamo i posteriori se quanto sopra è finito. Significa che se quell'integrale non è finito il posteriore non sarà finito? Inoltre, sembra implicare che in questo caso usiamo il posteriore, ma non è una vera distribuzione, vero? non ci sono casi in cui si tratta di una vera distribuzione? Inoltre, cosa c'entra il rapporto dei priori con questo? Non vedo la connessione.
Ben Elizabeth Ward,

@BenElizabethWard Se esiste, allora l'integrale deve esistere (e quindi essere finito). Anche il contrappunto è vero: se non esiste (è infinito), allora non esiste. Quando esiste ed è una distribuzione di probabilità valida, è una distribuzione di probabilità. Tuttavia, non è una distribuzione posteriore per con la probabilità data data . Il posteriore per quel precedente non esiste. Accettiamo nella nostra analisi perché è un'approssimazione. π ( X ) π ( X ) π ( θ X ) π ( θ X ) π ( θ ) π ( X θ ) π ( θ X )π(θX)π(X)π(X)π(θX)π(θX)π(θ)π(Xθ)π(θX)

1
@BenElizabethWard Il rapporto è stato usato per dimostrare che il precedente contiene ancora informazioni utili che potremmo non essere in grado di caricare in un precedente adeguato. Modificherò la mia risposta per includerla.

2
@jsk non è una distribuzione di probabilità, ma la definizione di distribuzione posteriore richiede che sia una distribuzione di probabilità, quindi è ingannevole chiamare una distribuzione posteriore quando è una distribuzione di probabilità. Degroot & Schervish dicono ".. calcoleremo le distribuzioni posteriori che ..." con cui presumono che tu abbia accettato di "fingere che loro [i priori impropri] siano [priori propri]" come espresso precedentemente nella citazione. π ( θ ) π ( θ X )π(θ)π(θ)π(θX)

1
Per rendere la tua risposta completa e autonoma in modo che i futuri lettori non debbano leggere questo scambio di commenti, vuoi aggiornare la tua risposta?
jsk,

9

C'è una risposta "teorica" ​​e una "pragmatica".

Da un punto di vista teorico, quando un priore è improprio, il posteriore non esiste (beh, guarda la risposta di Matthew per un'affermazione più solida), ma può essere approssimato da una forma limitante.

Se i dati comprendono un campione iid condizionatamente dalla distribuzione di Bernoulli con parametro e ha la distribuzione beta con parametri e , la distribuzione posteriore di è la distribuzione beta con parametri ( osservazioni, successi ) e la sua media è . Se utilizziamo la distribuzione beta impropria (e irreale) prima di precedenti ipeparametri , e facciamo finta cheθ α β θ α + s , β + n - s n s ( α + s ) / ( α + β + n ) α = β = 0 π ( θ )θθαβθα+s,β+nsns(α+s)/(α+β+n)α=β=0 θ s - 1 ( 1 - θ ) n - sπ(θ)θ1(1θ)1, otteniamo una corretta proporzione posteriore a , ovvero il pdf della distribuzione beta con parametri e eccezione di un fattore costante. Questa è la forma limitante del posteriore per un beta precedente con i parametri e (Degroot & Schervish, Esempio 7.3.13). sn-sα0β0θs1(1θ)ns1snsα0β0

In un modello normale con media , varianza nota e una distribuzione precedente di per , se la precisione precedente, , è piccolo rispetto alla precisione dei dati, , quindi la distribuzione posteriore è approssimativamente come se : ovvero la distribuzione posteriore è approssimativamente quella che deriverebbe dall'ipotesi che sia proporzionale a una costante perσ 2θσ2θ1/τ 2 0 n/σ2τ 2 0 =p(θx)N(θ ˉ x ,σ2/n)N(μ0,τ02)θ1/τ02n/σ2τ02=

p(θx)N(θx¯,σ2/n)
θ ( - , ) τ 2 0p(θ)θ(,), esiste una distribuzione non strettamente possibile, ma esiste la forma limitante del posteriore mentre avvicina ( Gelman et al. , p. 52).τ02

Da un punto di vista "pragmatico", quando qualunque sia , quindi se in , quindi . I priori impropri possono essere impiegati per rappresentare il comportamento locale della distribuzione precedente nella regione in cui la probabilità è apprezzabile, diciamo . Supponendo che con sufficiente approssimazione un precedente segua forme come o solo oltrep(xθ)p(θ)=0p(xθ)=0p(θ)p(xθ)0(a,b)p(xθ)p(θ)dθ=abp(xθ)p(θ)dθ(a,b)f ( x ) = k x - 1 , x ( 0 , p ( x θ ) p ( θ ) = p ( x θ ) k p ( x θ )f(x)=k,x(,)f(x)=kx1,x(0,)(a,b), che si adatta opportunamente a zero al di fuori di tale intervallo, assicuriamo che i priori effettivamente utilizzati siano corretti ( Box e Tiao , p. 21). Quindi, se la distribuzione precedente di è ma è limitata, è come se , cioè . Per un esempio concreto, questo è ciò che accade a Stan : se non viene specificato alcun precedente per un parametro, viene implicitamente dato un precedente uniforme sul suo supporto e questo viene gestito come una moltiplicazione della probabilità per una costante.θU(,)θ (a,b)θU(a,b)p(xθ)p(θ)=p(xθ)kp(xθ)


Puoi dirci di più sul perché non esiste dal punto di vista teorico?
jsk,

Non ho potuto esporre meglio di Matthew nella sua risposta e nei suoi commenti.
Sergio,

Nella sezione pragmatica, che cos'è y? Anche in quella sezione, alcuni dei termini dovrebbero essere la probabilità ? p(θx)p(xθ)
jsk,

Grazie. Penso che potrebbe esserci un altro errore ... Scrivi , ma il precedente non può dipendere da . Intendi ? xP(θ)=kx1xP(θ)=kθ1
jsk,

Destra! Ho riscritto quelle formule come sono in Box & Tiao. Stavo cercando di scegliere una notazione omogenea (ad es. Gelman usa invece di , DeGroot usa Per priori e posteriori ecc.) Ma sono finito in un pasticcio ... Grazie! x ξ ( . )yxξ(.)
Sergio,

2

Tuttavia, nel caso di un precedente improprio, come fai a sapere che esiste effettivamente la distribuzione posteriore?

Anche il posteriore potrebbe non essere corretto. Se il priore è improprio e la probabilità è piatta (perché non ci sono osservazioni significative), allora il posteriore è uguale al precedente ed è anche improprio.

Di solito hai alcune osservazioni, e di solito la probabilità non è piatta, quindi il posteriore è corretto.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.