Perché il posteriore bayesiano si concentra attorno al minimizzatore della divergenza di KL?


9

Si consideri il Bayesiano posteriore θX . Asintoticamente, il suo massimo si verifica alla stima MLE θ , che appena massimizza la probabilità argmin θθ^argminθfθ(X) .

Tutti questi concetti - priori bayesiani, che massimizzano la probabilità - sembrano superprotesi e per nulla arbitrari. Non c'è un log in vista.

Tuttavia MLE minimizza la divergenza KL tra la distribuzione reale f~ e fθ(x) , cioè minimizza

KL(f~fθ)=+f~(x)[logf~(x)logfθ(x)]dx

Woah: da dove provengono questi tronchi? Perché la divergenza di KL in particolare?

Perché, ad esempio, ridurre al minimo una diversa divergenza non corrisponde ai concetti di super principi e motivati ​​dei posteriori bayesiani e massimizzare la probabilità di cui sopra?

Sembra esserci qualcosa di speciale nella divergenza di KL e / o nei registri in questo contesto. Certo, possiamo lanciare le mani in aria e dire che è così che è la matematica. Ma sospetto che potrebbero esserci intuizioni o connessioni più profonde da scoprire.



@kjetilbhalvorsen Il titolo precedente sembrava un duplicato; Mi scuso. Ho fatto una modifica e dovrebbe essere chiaro perché questa domanda non è un duplicato.
Yatharth Agarwal,

Le altre domande si pongono: "Cos'è la divergenza di KL e perché non è simmetrica?" Le risposte spiegano il concetto di divergenza e alcune informazioni su KL. Al contrario, questa domanda si pone "Perché il posteriore bayesiano si concentra attorno al minimizzatore della divergenza di KL?" Spiegando semplicemente come le divergenze non debbano essere simmetriche e spiegando KL e affermando che KL è connessa a MLE non si affronta qui il nocciolo della domanda: perché tra le molte possibili divergenze KL in particolare ha una connessione speciale con il posteriore bayesiano. ha senso?
Yatharth Agarwal,

Sì, ha senso, ma c'è ancora un problema. Il posteriore dipende anche dal precedente, e se questo è forte, il posteriore può avere un massimo di distanza dalla mle. Ma il priore è assente dalla tua domanda.
kjetil b halvorsen,

@kjetilbhalversen Intendevo asintoticamente con sempre più campioni IID e nelle condizioni (rigorose) in cui il precedente non contava asintoticamente!
Yatharth Agarwal,

Risposte:


5

L'uso dei logaritmi in calcoli come questo deriva dalla teoria dell'informazione . Nel caso particolare della divergenza KL, la misura può essere interpretata come l'informazione relativa di due distribuzioni:

KL(f~fθ)=f~(x)(logf~(x)logfθ(x)) dx=(f~(x)logfθ(x) dxH(f~,fθ))(f~(x)logf~(x) dxH(f~)),

H(f~)f~H(f~,fθ)f~fθf~

Non è possibile per me dare un buon resoconto della teoria dell'informazione e delle proprietà delle misure di informazione in un breve post. Tuttavia, consiglierei di dare un'occhiata al campo, poiché ha stretti collegamenti con le statistiche. Molte misure statistiche che coinvolgono integrali e somme su logaritmi di densità sono semplici combinazioni di misure di informazione standard utilizzate nella teoria delle misure e, in tali casi, possono ricevere interpretazioni in termini di livelli sottostanti di informazioni in varie densità, ecc.


Analizzare la teoria dell'informazione sembra promettente! Grazie per avermi indicato.
Yatharth Agarwal,

Ovviamente, non puoi spiegare un intero campo matematico in un post StackExchange, ma avresti qualche riferimento particolare a loro in cui compare il registro?
Yatharth Agarwal,

Penso solo che ci sia un'intuizione così profonda dietro il perché, diciamo, e sia nell'equazione di Eulero e tale, che ci sia un'intuizione simile in agguato qui. Forse un prodotto da qualche parte fa sorgere il logaritmo naturale. Non ne sono sicuro.
Yatharth Agarwal,

@Yatharth il logaritmo sorge qui a causa del suo ruolo centrale nella definizione dell'entropia di Shannon. Per quanto riguarda "perché" un logaritmo è appropriato per una misura di informazione, al contrario di un'altra funzione, dai un'occhiata al teorema 2 nella "Teoria matematica della comunicazione" di Shannon. Inoltre, "Teoria dell'informazione e meccanica statistica" di Jayne è una bella introduzione.
Nate Pope,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.