Qual è la relazione tra la dimensione del campione e l'influenza del priore sul posteriore?


17

Se abbiamo una piccola dimensione del campione, la distribuzione precedente influenzerà molto la distribuzione posteriore?


5
L'intuizione è chiara: più dati hai, meno devi fare affidamento sui tuoi priori. Non solo una lezione di statistica, ma una lezione di vita! ;)
Lucas Reis,

Risposte:


27

Sì. La distribuzione posteriore per un parametro , dato un set di dati X può essere scritta comeθX

p(θ|X)p(X|θ)likelihoodp(θ)prior

o, come è più comunemente visualizzato sulla scala del registro,

log(p(θ|X))=c+L(θ;X)+log(p(θ))

La probabilità logaritmica, , si ridimensiona in base alla dimensione del campione , poiché è una funzione dei dati, mentre la densità precedente no. Pertanto, all'aumentare della dimensione del campione, il valore assoluto di L ( θ ; X ) aumenta mentre il registro ( p ( θ ) ) rimane fisso (per un valore fisso di θ ), quindi la somma L ( θ ; X )L(θ;X)=log(p(X|θ))L(θ;X)log(p(θ))θ viene influenzato maggiormente da L ( θ ; X ) all'aumentare della dimensione del campione.L(θ;X)+log(p(θ))L(θ;X)

Pertanto, per rispondere direttamente alla tua domanda, la distribuzione precedente diventa sempre meno rilevante in quanto viene compensata dalla probabilità. Quindi, per una piccola dimensione del campione, la distribuzione precedente svolge un ruolo molto più ampio. Ciò concorda con l'intuizione poiché, ci si aspetterebbe che le specifiche precedenti svolgessero un ruolo più ampio quando non ci sono molti dati disponibili per confutarli mentre, se la dimensione del campione è molto grande, il segnale presente nei dati supererà qualunque cosa a priori le credenze sono state inserite nel modello.


6
+1 Nota che dipende anche da n . cn

20

Ecco un tentativo di illustrare l'ultimo paragrafo della risposta eccellente (+1) di Macro. Mostra due priori per il parametro nella distribuzione B i n o m i a l ( n , p ) . Per alcune n diverse , le distribuzioni posteriori sono mostrate quando x = n / 2 è stato osservato. Come n cresce, entrambi posteriori diventano sempre più concentrata intorno 1 / 2 .pBinomial(n,p)nx=n/2n1/2

Per la differenza è abbastanza grande, ma per n = 50 non c'è praticamente alcuna differenza.n=2n=50

I due priori sotto sono (nero) e B e t un ( 2 , 2 ) (rosso). I posteriori hanno gli stessi colori dei priori da cui sono derivati.Beta(1/2,1/2)Beta(2,2)

Distribuzioni posteriori

(Nota che per molti altri modelli e altri precedenti, non sarà sufficiente perché il precedente non abbia importanza!)n=50


4
Illustrazioni fantastiche, @ MånsT. Ho de-corsivo le parole 'Beta' e 'Binomial' nella tua risposta - spero che non ti dispiaccia.
Macro

Certo che no, @Macro! Sono d'accordo che sembra meglio così.
Martedì
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.