Si consideri il Bayesiano posteriore . Asintoticamente, il suo massimo si verifica alla stima MLE θ , che appena massimizza la probabilità argmin θ .
Tutti questi concetti - priori bayesiani, che massimizzano la probabilità - sembrano superprotesi e per nulla arbitrari. Non c'è un log in vista.
Tuttavia MLE minimizza la divergenza KL tra la distribuzione reale e , cioè minimizza
Woah: da dove provengono questi tronchi? Perché la divergenza di KL in particolare?
Perché, ad esempio, ridurre al minimo una diversa divergenza non corrisponde ai concetti di super principi e motivati dei posteriori bayesiani e massimizzare la probabilità di cui sopra?
Sembra esserci qualcosa di speciale nella divergenza di KL e / o nei registri in questo contesto. Certo, possiamo lanciare le mani in aria e dire che è così che è la matematica. Ma sospetto che potrebbero esserci intuizioni o connessioni più profonde da scoprire.