I parametri di massima verosimiglianza si discostano dalle distribuzioni posteriori


11

Ho una funzione di verosimiglianza per la probabilità dei miei dati dati alcuni parametri del modello , che vorrei stimare. Assumendo priori piatti sui parametri, la probabilità è proporzionale alla probabilità posteriore. Uso un metodo MCMC per provare questa probabilità.L(d|θ)dθRN

Osservando la risultante catena convergente, trovo che i parametri di massima verosimiglianza non siano coerenti con le distribuzioni posteriori. Ad esempio, la distribuzione della probabilità posteriore emarginata per uno dei parametri potrebbe essere , mentre il valore di nel punto di massima verosimiglianza è , essendo praticamente il valore massimo di attraversato dal campionatore MCMC.θ0~N(μ=0,σ2=1)θ0θ0ML4θ0

Questo è un esempio illustrativo, non i miei risultati reali. Le distribuzioni reali sono molto più complicate, ma alcuni dei parametri ML hanno valori p altrettanto improbabili nelle rispettive distribuzioni posteriori. Nota che alcuni dei miei parametri sono limitati (ad esempio ); entro i limiti, i priori sono sempre uniformi.0θ11

Le mie domande sono:

  1. Una simile deviazione è di per sé un problema ? Ovviamente non mi aspetto che i parametri ML coincidano esattamente con i massimi di ciascuna delle loro distribuzioni posteriori marginalizzate, ma intuitivamente sembra che non dovrebbero essere trovati in profondità nelle code. Questa deviazione invalida automaticamente i miei risultati?

  2. Se questo è necessariamente problematico o no, potrebbe essere sintomatico di patologie specifiche in qualche fase dell'analisi dei dati? Ad esempio, è possibile fare qualche affermazione generale sul fatto che una tale deviazione possa essere indotta da una catena erroneamente convergente, un modello errato o limiti eccessivamente stretti sui parametri?

Risposte:


15

Con priori piatti, il posteriore è identico alla probabilità fino a una costante. così

  1. L'MLE (stimato con un ottimizzatore) dovrebbe essere identico al MAP (valore massimo a posteriori = modalità multivariata del posteriore, stimato con MCMC). Se non ottieni lo stesso valore, hai un problema con il tuo campionatore o ottimizzatore.

  2. Per i modelli complessi, è molto comune che le modalità marginali siano diverse dalla MAP. Ciò accade, ad esempio, se le correlazioni tra i parametri non sono lineari. Questo è perfettamente bene, ma le modalità marginali non dovrebbero quindi essere interpretate come i punti di maggiore densità posteriore e non essere confrontate con l'MLE.

  3. Nel tuo caso specifico, tuttavia, sospetto che la parte posteriore corra contro il limite precedente. In questo caso, il posteriore sarà fortemente asimmetrico e non ha senso interpretarlo in termini di media, sd. Non vi è alcun problema di principio in questa situazione, ma in pratica spesso suggerisce un modello di errata specificazione o priori scarsamente scelti.


15

Alcune possibili spiegazioni generiche per questa discrepanza percepita, supponendo ovviamente che non vi siano problemi con la definizione del codice o della probabilità o l'implementazione MCMC o il numero di iterazioni MCMC o la convergenza del massimizzatore della probabilità (grazie, Jacob Socolar ):

  1. nelle grandi dimensioni , il posteriore non si concentra sul massimo ma su una distanza dell'ordine di dalla modalità, il che significa che i valori più grandi della funzione di probabilità incontrati da un campionatore MCMC sono spesso molto al di sotto del valore di la probabilità al massimo. Ad esempio, se il posteriore è , è almeno a una distanza dalla modalità, .NNθ|X~NN(0,ioN)θN-22N0

  2. Mentre MAP e MLE sono effettivamente confusi in un precedente piatto, le densità marginali dei diversi parametri del modello possono avere modalità (marginali) che sono molto lontane dai corrispondenti MLE (cioè MAP).

  3. Il MAP è una posizione nello spazio dei parametri in cui la densità posteriore è massima ma ciò non indica alcuna indicazione di peso o volume posteriore per i quartieri del MAP. Un picco molto sottile non ha peso posteriore. Questo è anche il motivo per cui l'esplorazione MCMC di un posteriore può incontrare difficoltà nell'identificare la modalità posteriore.

  4. Il fatto che la maggior parte dei parametri sia limitata può portare ad alcuni componenti di MAP = MLE che si verificano a un limite.

Vedi, ad esempio, Druihlet e Marin (2007) per argomenti sulla natura non bayesiana degli stimatori MAP. Uno è la dipendenza da questi stimatori dalla misura dominante, un altro è la mancanza di invarianza sotto riparametrizzazione (a differenza di MLE).

Come esempio del punto 1 sopra, ecco un breve codice R

N=100
T=1e4
lik=dis=rep(0,T)
mu=rmvnorm(1,mean=rep(0,N))
xobs=rmvnorm(1,mean=rep(0,N))
lik[1]=dmvnorm(xobs,mu,log=TRUE)
dis[1]=(xobs-mu)%*%t(xobs-mu)
for (t in 2:T){
  prop=rmvnorm(1,mean=mu,sigma=diag(1/N,N))
  proike=dmvnorm(xobs,prop,log=TRUE)
  if (log(runif(1))<proike-lik[t-1]){
    mu=prop;lik[t]=proike
     }else{lik[t]=lik[t-1]}
    dis[t]=(xobs-mu)%*%t(xobs-mu)}

che imita una sequenza di Metropolis-Hastings con camminata casuale nella dimensione N = 100. Il valore della probabilità logaritmica nel MAP è -91,89, ma le probabilità visitate non si avvicinano mai:

> range(lik)
[1] -183.9515 -126.6924

che è spiegato dal fatto che la sequenza non si avvicina mai all'osservazione:

> range(dis)
[1]  69.59714 184.11525

3
Aggiungo semplicemente che oltre a preoccuparsi del codice o della definizione di probabilità o dell'implementazione MCMC, l'OP potrebbe anche preoccuparsi se il software utilizzato per ottenere la stima ML sia rimasto intrappolato in un ottimale locale. stats.stackexchange.com/questions/384528/…
Jacob Socolar
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.