Perché la massima probabilità e la probabilità non prevista?

Perché è così comune ottenere stime della massima verosimiglianza dei parametri, ma non si sente praticamente mai delle stime dei parametri di verosimiglianza attese (cioè, basate sul valore atteso piuttosto che sulla modalità di una funzione di verosimiglianza)? Questo è principalmente per ragioni storiche o per ragioni tecniche o teoriche più sostanziali?

Ci sarebbero vantaggi e / o svantaggi significativi nell'utilizzare le stime di probabilità previste piuttosto che le stime di massima verosimiglianza?

Ci sono alcune aree in cui le stime di probabilità attese vengono abitualmente utilizzate?

— Jake Westfall
fonte

Valore atteso rispetto a quale distribuzione di probabilità? ML è di solito applicato nelle analisi non bayesiane in cui (a) i dati sono (e fissati) e (b) i parametri sono trattati come costanti (sconosciute): non ci sono variabili casuali.

— whuber

Risposte:

Il metodo proposto (dopo aver normalizzato la probabilità di essere una densità) equivale a stimare i parametri usando un flat precedente per tutti i parametri nel modello e usando la media della distribuzione posteriore come stimatore. Ci sono casi in cui l'uso di un precedente piatto può metterti nei guai perché non finisci con una corretta distribuzione posteriore, quindi non so come correggere questa situazione qui.

Rimanendo in un contesto frequentista, tuttavia, il metodo non ha molto senso poiché la probabilità non costituisce una densità di probabilità nella maggior parte dei contesti e non è rimasto nulla di casuale quindi prendere un'aspettativa non ha molto senso. Ora possiamo semplicemente formalizzare questo come un'operazione che applichiamo alla probabilità dopo il fatto di ottenere una stima, ma non sono sicuro di come sarebbero le proprietà del frequentatore di questo stimatore (nei casi in cui la stima esiste realmente).

vantaggi:

Ciò può fornire una stima in alcuni casi in cui l'MLE non esiste realmente.
Se non sei testardo, puoi spostarti in un ambiente bayesiano (e questo sarebbe probabilmente il modo naturale di fare deduzione con questo tipo di stima). Ok, quindi a seconda delle tue opinioni questo potrebbe non essere un vantaggio - ma lo è per me.

svantaggi:

Neanche questo è garantito.
Se non disponiamo di uno spazio dei parametri convesso, la stima potrebbe non essere un valore valido per il parametro.
Il processo non è invariante alla riparameterizzazione. Poiché il processo equivale a mettere un valore precedente ai parametri, fa la differenza su quali siano questi parametri (stiamo parlando di usare come parametro o stiamo usando ) $\sigma$ $\sigma^2$

— Dason
fonte

+1 Un enorme problema nell'assumere una distribuzione uniforme dei parametri è che i problemi di ML vengono spesso riformulati sfruttando l'invarianza delle loro soluzioni alla riparametrizzazione: ciò, tuttavia, cambierebbe la distribuzione precedente sui parametri. Quindi prendere una "aspettativa" come se i parametri abbiano una distribuzione uniforme è un artefatto arbitrario e può portare a risultati errati e insignificanti.

— whuber

Buon punto! Ne avrei parlato anche io, ma ho dimenticato di tirarlo su mentre scrivevo il resto.

— Dason,

Per la cronaca, anche la massima probabilità non è invariante alla riparametrizzazione.

— Neil G,

@NeilG Sì, lo è? Forse ci riferiamo a idee diverse però. Cosa intendi quando lo dici?

— Dason,

p \in [0, 1]

$p \in [0,1]$

α = β = 2

$\alpha=\beta=2$

o \in [0, \infty)

$o \in [0, \infty)$

α = β = 2

$\alpha=\beta=2$

\frac{1}{2}

$\frac12$

\frac{1}{3}

$\frac13$

\frac{1}{4}

$\frac14$

Uno dei motivi è che la stima della massima verosimiglianza è più semplice: imposti la derivata della verosimiglianza scrivendo i parametri a zero e risolvendo i parametri. Prendere un'aspettativa significa integrare i tempi di probabilità di ciascun parametro.

$\{x_i\}$ $\mu=E(x)$ $\chi=E(x^2)$ .

In alcuni casi, il parametro di massima verosimiglianza è uguale al parametro di verosimiglianza previsto. Ad esempio, la media probabile della probabilità della distribuzione normale sopra è uguale alla massima probabilità perché il precedente sulla media è normale e la modalità e la media di una distribuzione normale coincidono. Ovviamente ciò non sarà vero per l'altro parametro (comunque lo parametrizzi).

Penso che il motivo più importante sia probabilmente perché vuoi aspettarti i parametri? Di solito, stai imparando un modello e i valori dei parametri sono tutto ciò che desideri. Se hai intenzione di restituire un singolo valore, la massima probabilità non è la migliore che puoi restituire?

— Neil G
fonte

Rispetto alla tua ultima riga: forse - forse no. Dipende dalla tua funzione di perdita. Ho appena giocato con l'idea di Jake e sembra che nel caso di X ~ Unif (0, theta) quel max (X) * (n-1) / (n-2), che è ciò che dà il metodo di Jake, ha una migliore MSE di max (X) che è l'MLE (almeno le simulazioni lo implicano quando n> = 5). Ovviamente l'esempio di Unif (0, theta) non è tipico ma mostra che ci sono altri metodi plausibili per ottenere gli stimatori.

— Dason,

@Dason Una tecnica frequentista standard (e potente) per trovare stimatori ( cioè , ammissibili) validi è calcolare gli stimatori di Bayes per vari priori. (Vedi, ad esempio , il libro di Lehmann sulla stima puntuale.) Hai appena riscoperto uno di questi stimatori.

— whuber

Grazie per la tua risposta Neil! Dici che ottenere le stime dei parametri tramite la differenziazione è più facile rispetto all'integrazione e posso certamente vedere come ciò sarebbe vero per problemi semplici (ad es. Livello di carta e penna o non molto oltre). Ma per problemi molto più complicati in cui dobbiamo fare affidamento su metodi numerici, potrebbe non essere effettivamente più facile utilizzare l'integrazione? In pratica, trovare l'MLE può costituire un problema di ottimizzazione piuttosto difficile. L'approssimazione numerica dell'integrale non potrebbe in realtà essere più semplice dal punto di vista computazionale? O è improbabile che ciò sia vero nella maggior parte dei casi?

— Jake Westfall,

@JakeWestfall: come farai ad aspettarti lo spazio dei parametri usando metodi numerici? In uno spazio modello complicato con un enorme spazio di parametri, non è possibile integrarsi sull'intera cosa valutando la probabilità di ciascun modello (impostazione dei parametri). In genere eseguirai EM per il quale avviene la stima dei parametri nel passaggio M in modo che ogni parametro sia uno dei "problemi semplici" come dici tu, e per il quale i parametri di massima verosimiglianza siano aspettative chiare di statistiche sufficienti.

— Neil G,

@NeilG Bene, Dason sottolinea che il metodo che sto discutendo è (dopo la normalizzazione) equivalente alla stima bayesiana con un precedente piatto e quindi usando la media posteriore come stima. Quindi, in risposta a "Come hai intenzione di aspettarti lo spazio dei parametri usando metodi numerici?" Immagino che stavo pensando che potremmo usare uno di questi metodi: bayesian-inference.com/numericalapproximation Qualche idea su questo?

— Jake Westfall,

Questo approccio esiste e si chiama stimatore del contrasto minimo. L'esempio del documento correlato (e vedi altri riferimenti dall'interno) https://arxiv.org/abs/0901.0655

— Danila Doroshin
fonte