Nell'inferenza bayesiana, perché alcuni termini vengono eliminati dal predittivo posteriore?


12

Nell'analisi coniugale bayesiana di Kevin Murphy della distribuzione gaussiana , scrive che la distribuzione predittiva posteriore è

p(xD)=p(xθ)p(θD)dθ

dove sono i dati su cui è adattato il modello e sono dati invisibili. Quello che non capisco è perché la dipendenza da scompare nel primo termine nell'integrale. Usando le regole di base della probabilità, mi sarei aspettato:DxD

p(a)=p(ac)p(c)dcp(ab)=p(ac,b)p(cb)dcp(xD)=p(xθ,D)p(θD)dθ

Domanda: Perché scompare la dipendenza da in termine ?D


Per quello che vale, ho visto questo tipo di formulazione (facendo cadere variabili nei condizionali) in altri posti. Ad esempio, in Bayesian Online Changepoint Detection di Ryan Adam , scrive il predittivo posteriore come

p(xt+1rt)=p(xt+1θ)p(θrt,xt)dθ

dove di nuovo, poiché , mi sarei aspettatoD={xt,rt}

p(xt+1xt,rt)=p(xt+1θ,xt,rt)p(θrt,xt)dθ

Risposte:


13

Questo si basa sul presupposto che sia condizionatamente indipendente da , dato . Questo è un presupposto ragionevole in molti casi, perché tutto ciò che dice è che i dati di addestramento e test (rispettivamente e ) sono generati indipendentemente dallo stesso insieme di parametri sconosciuti . Dato questo presupposto di indipendenza, , e quindi la cade dalla forma più generale che ti aspettavi.xDθDxθp(x|θ,D)=p(x|θ)D

Nel tuo secondo esempio, sembra che si stia applicando un'ipotesi di indipendenza simile, ma ora (esplicitamente) nel tempo. Questi presupposti possono essere esplicitamente indicati altrove nel testo, oppure possono essere implicitamente chiari a chiunque abbia una conoscenza sufficiente del contesto del problema (anche se ciò non significa necessariamente che nei tuoi esempi particolari - di cui non ho familiarità - gli autori avevano ragione ad assumere questa familiarità).


9

È perché si presume che sia indipendente da dato . In altre parole, si presume che tutti i dati siano derivati ​​da una distribuzione normale con parametri . Una volta che viene preso in considerazione usando le informazioni di , non ci sono più informazioni che ci fornisce su un nuovo punto dati . Pertanto .xDθθθDDxp(x|θ,D)=p(x|θ)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.