La proprietà di invarianza dello stimatore ML è insensata dal punto di vista bayesiano?


9

Casella e Berger dichiarano la proprietà di invarianza dello stimatore ML come segue:

inserisci qui la descrizione dell'immagine

Tuttavia, mi sembra che definiscano la "probabilità" di in un modo completamente ad hoc e senza senso:η

inserisci qui la descrizione dell'immagine

Se applico le regole di base della teoria della probabilità al caso semplice se , ottengo invece quanto segue: L ( η | x ) = p ( x | θ 2 = η ) = p ( x | θ = - η=τ(θ)=θ2 Ora applicando il teorema di Bayes, e quindi il fatto cheAeBsi escludono a vicenda in modo da poter applicare la regola della somma: p(x|AB)=p(x) p ( A B | x )

L(η|x)=p(x|θ2=η)=p(x|θ=ηθ=η)=:p(x|AB)
AB
p(x|AB)=p(x)p(AB|x)p(AB)=p(x|AB)=p(x)p(A|x)+p(B|x)p(A)+p(B)

Ora applica nuovamente il teorema di Bayes ai termini del numeratore:

p(x)p(A)p(x|A)p(x)+p(B)p(x|B)p(x)p(A)+p(B)=p(A)p(x|A)+p(B)p(x|B)p(A)+p(B)

Se vogliamo massimizzare questo wrt a per ottenere la stima della massima verosimiglianza di η , dobbiamo massimizzare: p θ ( - ηη

pθ(η)p(x|θ=η)+pθ(η)p(x|θ=η)

Bayes colpisce ancora? Casella & Berger ha torto? O mi sbaglio?



1
η=τ(θ)=θ2

4
Capisco la tua frustrazione, Programmer2134 (& @MartijnWeterings). Tuttavia, si prega di fare attenzione al tono nei commenti. Conversazioni produttive sono possibili solo quando la nostra bella Sia la politica è seguita. Se non sei interessato a perseguire conversazioni produttive, devi pubblicare queste domande altrove.
gung - Ripristina Monica

3
@gung, hai perfettamente ragione. E mi pento di aver reagito con quel tono. Smetterò di farlo da ora in poi. Mi dispiace per questo. Per quanto riguarda la conversazione, sono interessato a perseguire quelle produttive, ma ho ritenuto che le reazioni delle persone in un paio di domande che avevo posto fossero per lo più controproducenti. Tuttavia, la prossima volta risponderò in modo diverso.
user56834

3
Grazie. È meglio presumere che le persone rispondano in buona fede. Ci sono (relativamente poche, IMHO) occasioni in cui le persone non lo sono, ma anche allora, a volte possono essere persuase a venire in giro.
gung - Ripristina Monica

Risposte:


15

Come dice Xi'an, la domanda è controversa, ma penso che molte persone siano comunque portate a considerare la stima della massima verosimiglianza dal punto di vista bayesiano a causa di un'affermazione che appare in alcune pubblicazioni e su Internet: " la massima verosimiglianza la stima è un caso particolare della stima massima a posteriori bayesiana, quando la distribuzione precedente è uniforme ".

Direi che da una prospettiva bayesiana lo stimatore della massima verosimiglianza e la sua proprietà di invarianza possono avere un senso, ma il ruolo e il significato degli stimatori nella teoria bayesiana sono molto diversi dalla teoria frequentista. E questo particolare stimatore di solito non è molto sensato dal punto di vista bayesiano. Ecco perché. Per semplicità, lasciatemi considerare un parametro monodimensionale e trasformazioni one-one.

Innanzitutto due osservazioni:

  1. T=273.16t=0.01θ=32.01η=5.61

  2. p(x)dx
    x

    Δxp(x)Δxx
    dx

    p(x1)>p(x2)x1x2xx1x2


xx~D

(*)x~:=argmaxxp(Dx).

Questo stimatore seleziona un punto sul collettore dei parametri e quindi non dipende da alcun sistema di coordinate. Dichiarato diversamente: ogni punto sul collettore dei parametri è associato ad un numero: la probabilità per i dati ; stiamo scegliendo il punto a cui è associato il numero più alto. Questa scelta non richiede un sistema di coordinate o una misura di base. È per questo motivo che questo stimatore è invariante alla parametrizzazione e questa proprietà ci dice che non è una probabilità, come desiderato. Questa invarianza rimane se consideriamo trasformazioni di parametri più complesse e la probabilità del profilo menzionata da Xi'an ha perfettamente senso da questa prospettiva.D

Vediamo il punto di vista bayesiano
Da questo punto di vista si fa sempre senso parlare di probabilità per un parametro continuo, se siamo incerti su di esso, alla condizione che i dati e le altre prove . Scriviamo questo come Come osservato all'inizio, questa probabilità si riferisce agli intervalli sulla varietà dei parametri, non ai singoli punti.D

(**)p(xD)dxp(Dx)p(x)dx.

Idealmente dovremmo segnalare la nostra incertezza specificando la distribuzione di probabilità completa per il parametro. Quindi la nozione di stimatore è secondaria da una prospettiva bayesiana.p(xD)dx

Questa nozione appare quando si deve scegliere un punto sul parametro collettore per qualche scopo o un motivo particolare, anche se il vero punto è sconosciuto. Questa scelta è il regno della teoria delle decisioni [1] e il valore scelto è la definizione corretta di "stimatore" nella teoria bayesiana. La teoria delle decisioni afferma che dobbiamo prima introdurre una funzione di utilità che ci dice quanto guadagniamo scegliendo il punto sul collettore dei parametri, quando il punto vero è (in alternativa, possiamo pessimisticamente parlare di una funzione di perdita). Questa funzione avrà un'espressione diversa in ciascun sistema di coordinate, ad es. e(P0,P)G(P0;P)P0P(x0,x)Gx(x0;x)(y0,y)Gy(y0;y); se la trasformazione delle coordinate è , le due espressioni sono correlate da [2].y=f(x)Gx(x0;x)=Gy[f(x0);f(x)]

Vorrei sottolineare subito che quando parliamo, diciamo, di una funzione di utilità quadratica, abbiamo implicitamente scelto un particolare sistema di coordinate, di solito naturale per il parametro. In un altro sistema di coordinate l'espressione per la funzione di utilità generalmente non quadratico, ma è ancora la stessa funzione di utilità sul collettore parametro.

Lo stimatore associato ad una funzione di utilità è il punto che massimizza l'utilità attesa dato il nostro dati . In un sistema di coordinate , la sua coordinata è Questa definizione è indipendente dalle modifiche delle coordinate: in nuove coordinate la coordinata dello stimatore è . Ciò deriva dalla coordinata indipendenza di e dell'integrale.P^GDx

(***)x^:=argmaxx0Gx(x0;x)p(xD)dx.
y=f(x)y^=f(x^)G

Vedi che questo tipo di invarianza è una proprietà incorporata degli stimatori bayesiani.

Ora possiamo chiederci: esiste una funzione di utilità che porta a uno stimatore pari a quello di massima verosimiglianza? Poiché lo stimatore della massima verosimiglianza è invariante, tale funzione potrebbe esistere. Da questo punto di vista, massima verosimiglianza sarebbe senza senso da un punto di vista Bayesiano se fosse non invariante!

Una funzione di utilità che in un particolare sistema di coordinate è uguale a un delta di Dirac, , sembra fare il lavoro [3]. L'equazione restituisce , e se il precedente in è uniforme nella coordinata , noi ottenere la stima della massima verosimiglianza . In alternativa possiamo considerare una sequenza di funzioni di utilità con supporto sempre più piccolo, ad esempio if e altrove, per [4].xGx(x0;x)=δ(x0x)(***)x^=argmaxxp(xD)(**)x(*)Gx(x0;x)=1|x0x|<ϵGx(x0;x)=0ϵ0

Quindi, sì, lo stimatore della massima verosimiglianza e la sua invarianza possono avere senso da una prospettiva bayesiana, se siamo matematicamente generosi e accettiamo funzioni generalizzate. Ma il significato, il ruolo e l'uso di uno stimatore in una prospettiva bayesiana sono completamente diversi da quelli in una prospettiva frequentista.

Vorrei anche aggiungere che sembrano esserci delle riserve in letteratura sul fatto che la funzione di utilità sopra definita abbia un senso matematico [5]. In ogni caso, l'utilità di una tale funzione di utilità è piuttosto limitata: come sottolinea Jaynes [3], significa che "ci preoccupiamo solo della possibilità di avere esattamente ragione; e, se abbiamo torto, non ci interessa quanto abbiamo torto ".

Consideriamo ora l'affermazione "la massima verosimiglianza è un caso speciale di massima a posteriori con un precedente uniforme". È importante notare cosa succede sotto un cambio generale di coordinate : 1. la funzione di utilità sopra presuppone un'espressione diversa, ; 2. la densità precedente nella coordinata non è uniforme , a causa del determinante giacobino; 3. lo stimatore non è il massimo della densità posteriore nella coordinata , poiché il delta di Dirac ha acquisito un ulteriore fattore moltiplicativo;y=f(x)
Gy(y0;y)=δ[f1(y0)f1(y)]δ(y0y)|f[f1(y0)]|
y
y
4. lo stimatore è ancora dato dal massimo della probabilità nelle nuove coordinate . Queste modifiche si combinano in modo che il punto dello stimatore sia sempre lo stesso sul collettore dei parametri.y

Pertanto, la precedente affermazione presuppone implicitamente uno speciale sistema di coordinate. Una dichiarazione provvisoria e più esplicita potrebbe essere questa: "lo stimatore di massima verosimiglianza è numericamente uguale allo stimatore bayesiano che in alcuni sistemi di coordinate ha una funzione di utilità delta e un precedente uniforme".

Commenti finali
La discussione sopra è informale, ma può essere resa precisa usando la teoria della misura e l'integrazione di Stieltjes.

Nella letteratura bayesiana possiamo trovare anche una nozione più informale di stimatore: è un numero che in qualche modo "riassume" una distribuzione di probabilità, specialmente quando è scomodo o impossibile specificare la sua piena densità ; vedi ad esempio Murphy [6] o MacKay [7]. Questa nozione è di solito distaccata dalla teoria delle decisioni e quindi può essere dipendente dalle coordinate o assumere tacitamente un particolare sistema di coordinate. Ma nella definizione teorica della decisione di stimatore, qualcosa che non è invariante non può essere uno stimatore.p(xD)dx

[1] Ad esempio, H. Raiffa, R. Schlaifer: teoria applicata della decisione statistica (Wiley 2000).
[2] Y. Choquet-Bruhat, C. DeWitt-Morette, M. Dillard-Bleick: analisi, varietà e fisica. Parte I: Nozioni di base (Elsevier 1996) o qualsiasi altro buon libro sulla geometria differenziale.
[3] ET Jaynes: Probability Theory: The Logic of Science (Cambridge University Press 2003), §13.10.
[4] J.-M. Bernardo, AF Smith: Bayesian Theory (Wiley 2000), §5.1.5.
[5] IH Jermyn: stima bayesiana invariante su varietà https://doi.org/10.1214/009053604000001273 ; R. Bassett, J. Deride: stimatori a posteriori massimi come limite degli stimatori di Bayes https://doi.org/10.1007/s10107-018-1241-0 .
[6] KP Murphy: Machine Learning: A Probabilistic Perspective (MIT Press 2012), in particolare il cap. 5.
[7] DJC MacKay: Information Theory, Inference and Learning Algorithms (Cambridge University Press 2003), http://www.inference.phy.cam.ac.uk/mackay/itila/ .


1
Esistono modi per definire gli stimatori di Bayes invarianti, nel senso precedente, creando una funzione di perdita funzionale, come ad esempio la divergenza di Kullback-Leibler tra due densità. Ho chiamato queste perdite perdite intrinseche in un documento del 1996 .
Xi'an,

8

Da un punto di vista non bayesiano, non esiste una definizione di quantità come perché è quindi un parametro fisso e la notazione condizionata non ha senso. L'alternativa che proponi si basa su una distribuzione precedente, che è esattamente ciò che un approccio come quello proposto da Casella e Berger vuole evitare. Puoi verificare la probabilità del profilo della parola chiave per ulteriori voci. (E non vi è alcun significato di o lì.)

p(x|θ=ηθ=η)
θrightwrong

In che modo ciò contraddice ciò che sto dicendo? Il mio punto era che non ha senso dal punto di vista bayesiano . Il problema che ho con la soluzione di Casella e Berger è che, fondamentalmente, escogitano una definizione ad-hoc totalmente nuova di probabilità, in modo tale da raggiungere la conclusione desiderata. Se si potesse fare una definizione coerente di probabilità, vale a dire quella che ho dato sopra, la conclusione sarebbe diversa. Certo, Casella e Berger potrebbero voler evitare di avvicinare i priori, ma l'unico modo per farlo è escogitare un cambiamento ad hoc della definizione di probabilità.
user56834

3
Se si desidera mantenere una prospettiva bayesiana, la domanda è controversa poiché la maggior parte dei risultati non bayesiani non avrà senso o sarà "coerente" con i principi bayesiani.
Xi'an,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.