Come dice Xi'an, la domanda è controversa, ma penso che molte persone siano comunque portate a considerare la stima della massima verosimiglianza dal punto di vista bayesiano a causa di un'affermazione che appare in alcune pubblicazioni e su Internet: " la massima verosimiglianza la stima è un caso particolare della stima massima a posteriori bayesiana, quando la distribuzione precedente è uniforme ".
Direi che da una prospettiva bayesiana lo stimatore della massima verosimiglianza e la sua proprietà di invarianza possono avere un senso, ma il ruolo e il significato degli stimatori nella teoria bayesiana sono molto diversi dalla teoria frequentista. E questo particolare stimatore di solito non è molto sensato dal punto di vista bayesiano. Ecco perché. Per semplicità, lasciatemi considerare un parametro monodimensionale e trasformazioni one-one.
Innanzitutto due osservazioni:
T=273.16t=0.01θ=32.01η=5.61
p(x)dx
x
Δxp(x)Δxx
dx
p(x1)>p(x2)x1x2xx1x2
xx~Dx~:=argmaxxp(D∣x).(*)
Questo stimatore seleziona un punto sul collettore dei parametri e quindi non dipende da alcun sistema di coordinate. Dichiarato diversamente: ogni punto sul collettore dei parametri è associato ad un numero: la probabilità per i dati ; stiamo scegliendo il punto a cui è associato il numero più alto. Questa scelta non richiede un sistema di coordinate o una misura di base. È per questo motivo che questo stimatore è invariante alla parametrizzazione e questa proprietà ci dice che non è una probabilità, come desiderato. Questa invarianza rimane se consideriamo trasformazioni di parametri più complesse e la probabilità del profilo menzionata da Xi'an ha perfettamente senso da questa prospettiva.D
Vediamo il punto di vista bayesiano
Da questo punto di vista si fa sempre senso parlare di probabilità per un parametro continuo, se siamo incerti su di esso, alla condizione che i dati e le altre prove . Scriviamo questo come
Come osservato all'inizio, questa probabilità si riferisce agli intervalli sulla varietà dei parametri, non ai singoli punti.Dp(x∣D)dx∝p(D∣x)p(x)dx.(**)
Idealmente dovremmo segnalare la nostra incertezza specificando la distribuzione di probabilità completa per il parametro. Quindi la nozione di stimatore è secondaria da una prospettiva bayesiana.p(x∣D)dx
Questa nozione appare quando si deve scegliere un punto sul parametro collettore per qualche scopo o un motivo particolare, anche se il vero punto è sconosciuto. Questa scelta è il regno della teoria delle decisioni [1] e il valore scelto è la definizione corretta di "stimatore" nella teoria bayesiana. La teoria delle decisioni afferma che dobbiamo prima introdurre una funzione di utilità che ci dice quanto guadagniamo scegliendo il punto sul collettore dei parametri, quando il punto vero è (in alternativa, possiamo pessimisticamente parlare di una funzione di perdita). Questa funzione avrà un'espressione diversa in ciascun sistema di coordinate, ad es. e(P0,P)↦G(P0;P)P0P(x0,x)↦Gx(x0;x)(y0,y)↦Gy(y0;y); se la trasformazione delle coordinate è , le due espressioni sono correlate da [2].y=f(x)Gx(x0;x)=Gy[f(x0);f(x)]
Vorrei sottolineare subito che quando parliamo, diciamo, di una funzione di utilità quadratica, abbiamo implicitamente scelto un particolare sistema di coordinate, di solito naturale per il parametro. In un altro sistema di coordinate l'espressione per la funzione di utilità generalmente non quadratico, ma è ancora la stessa funzione di utilità sul collettore parametro.
Lo stimatore associato ad una funzione di utilità è il punto che massimizza l'utilità attesa dato il nostro dati . In un sistema di coordinate , la sua coordinata è
Questa definizione è indipendente dalle modifiche delle coordinate: in nuove coordinate la coordinata dello stimatore è . Ciò deriva dalla coordinata indipendenza di e dell'integrale.P^GDxx^:=argmaxx0∫Gx(x0;x)p(x∣D)dx.(***)
y=f(x)y^=f(x^)G
Vedi che questo tipo di invarianza è una proprietà incorporata degli stimatori bayesiani.
Ora possiamo chiederci: esiste una funzione di utilità che porta a uno stimatore pari a quello di massima verosimiglianza? Poiché lo stimatore della massima verosimiglianza è invariante, tale funzione potrebbe esistere. Da questo punto di vista, massima verosimiglianza sarebbe senza senso da un punto di vista Bayesiano se fosse non invariante!
Una funzione di utilità che in un particolare sistema di coordinate è uguale a un delta di Dirac, , sembra fare il lavoro [3]. L'equazione restituisce , e se il precedente in è uniforme nella coordinata , noi ottenere la stima della massima verosimiglianza . In alternativa possiamo considerare una sequenza di funzioni di utilità con supporto sempre più piccolo, ad esempio if e altrove, per [4].xGx(x0;x)=δ(x0−x)(***)x^=argmaxxp(x∣D)(**)x(*)Gx(x0;x)=1|x0−x|<ϵGx(x0;x)=0ϵ→0
Quindi, sì, lo stimatore della massima verosimiglianza e la sua invarianza possono avere senso da una prospettiva bayesiana, se siamo matematicamente generosi e accettiamo funzioni generalizzate. Ma il significato, il ruolo e l'uso di uno stimatore in una prospettiva bayesiana sono completamente diversi da quelli in una prospettiva frequentista.
Vorrei anche aggiungere che sembrano esserci delle riserve in letteratura sul fatto che la funzione di utilità sopra definita abbia un senso matematico [5]. In ogni caso, l'utilità di una tale funzione di utilità è piuttosto limitata: come sottolinea Jaynes [3], significa che "ci preoccupiamo solo della possibilità di avere esattamente ragione; e, se abbiamo torto, non ci interessa quanto abbiamo torto ".
Consideriamo ora l'affermazione "la massima verosimiglianza è un caso speciale di massima a posteriori con un precedente uniforme". È importante notare cosa succede sotto un cambio generale di coordinate :
1. la funzione di utilità sopra presuppone un'espressione diversa, ;
2. la densità precedente nella coordinata non è uniforme , a causa del determinante giacobino;
3. lo stimatore non è il massimo della densità posteriore nella coordinata , poiché il delta di Dirac ha acquisito un ulteriore fattore moltiplicativo;y=f(x)
Gy(y0;y)=δ[f−1(y0)−f−1(y)]≡δ(y0−y)|f′[f−1(y0)]|
y
y
4. lo stimatore è ancora dato dal massimo della probabilità nelle nuove coordinate .
Queste modifiche si combinano in modo che il punto dello stimatore sia sempre lo stesso sul collettore dei parametri.y
Pertanto, la precedente affermazione presuppone implicitamente uno speciale sistema di coordinate. Una dichiarazione provvisoria e più esplicita potrebbe essere questa: "lo stimatore di massima verosimiglianza è numericamente uguale allo stimatore bayesiano che in alcuni sistemi di coordinate ha una funzione di utilità delta e un precedente uniforme".
Commenti finali
La discussione sopra è informale, ma può essere resa precisa usando la teoria della misura e l'integrazione di Stieltjes.
Nella letteratura bayesiana possiamo trovare anche una nozione più informale di stimatore: è un numero che in qualche modo "riassume" una distribuzione di probabilità, specialmente quando è scomodo o impossibile specificare la sua piena densità ; vedi ad esempio Murphy [6] o MacKay [7]. Questa nozione è di solito distaccata dalla teoria delle decisioni e quindi può essere dipendente dalle coordinate o assumere tacitamente un particolare sistema di coordinate. Ma nella definizione teorica della decisione di stimatore, qualcosa che non è invariante non può essere uno stimatore.p(x∣D)dx
[1] Ad esempio, H. Raiffa, R. Schlaifer: teoria applicata della decisione statistica (Wiley 2000).
[2] Y. Choquet-Bruhat, C. DeWitt-Morette, M. Dillard-Bleick: analisi, varietà e fisica. Parte I: Nozioni di base (Elsevier 1996) o qualsiasi altro buon libro sulla geometria differenziale.
[3] ET Jaynes: Probability Theory: The Logic of Science (Cambridge University Press 2003), §13.10.
[4] J.-M. Bernardo, AF Smith: Bayesian Theory (Wiley 2000), §5.1.5.
[5] IH Jermyn: stima bayesiana invariante su varietà https://doi.org/10.1214/009053604000001273 ; R. Bassett, J. Deride: stimatori a posteriori massimi come limite degli stimatori di Bayes https://doi.org/10.1007/s10107-018-1241-0 .
[6] KP Murphy: Machine Learning: A Probabilistic Perspective (MIT Press 2012), in particolare il cap. 5.
[7] DJC MacKay: Information Theory, Inference and Learning Algorithms (Cambridge University Press 2003), http://www.inference.phy.cam.ac.uk/mackay/itila/ .