Usiamo mai la stima della massima verosimiglianza?


14

Mi chiedo se la stima della massima verosimiglianza sia mai stata utilizzata nelle statistiche. Ne apprendiamo il concetto, ma mi chiedo quando verrà effettivamente utilizzato. Se assumiamo la distribuzione dei dati, troviamo due parametri, uno per la media e uno per la varianza, ma in realtà li usi in situazioni reali?

Qualcuno può dirmi un semplice caso in cui viene utilizzato?


33
È metodo di stima più diffuso. the
JohnK

3
Stavo cercando di chiedere quando non stiamo usando MLE
Haitao Du

4
regressione logistica. Regressione di Poisson. OLS è il MLE quando gli errori sono considerati normali. Regressione gamma. Qualsiasi GLM classica davvero. Stima della media da una popolazione normale. Stima della probabilità di successo da una serie di prove binomiali. Stima del tasso di eventi di Poisson. Potrei andare avanti ...
GoF_Logistic

4
Questa ricerca molto ristretta del nostro sito produce centinaia di esempi di usi reali.
whuber

6
@ hxd1011 Stai non utilizza MLE quando non si sta utilizzando i suoi metodi per ottenere variazioni di stime o alla fiducia del calcolo, la previsione, o intervalli di tolleranza, per esempio, anche quando lo stimatore che si sta utilizzando potrebbe accadere a concordare con lo stimatore MLE. Ad esempio, non si utilizza MLE quando si esegue un test t. Spesso non lo usi quando applichi stimatori imparziali. Filosoficamente, non useresti MLE quando ti preoccupi di una funzione di perdita o hai una distribuzione precedente.
whuber

Risposte:


25

Mi chiedo se la stima della massima verosimiglianza sia mai stata utilizzata nelle statistiche.

Certamente! In realtà parecchio, ma non sempre.

Ne apprendiamo il concetto, ma mi chiedo quando verrà effettivamente utilizzato.

Quando le persone hanno un modello distributivo parametrico, abbastanza spesso scelgono di usare la stima della massima verosimiglianza. Quando il modello è corretto, ci sono una serie di utili proprietà degli stimatori della massima verosimiglianza.

Per un esempio, l'uso di modelli lineari generalizzati è piuttosto diffuso e in tal caso i parametri che descrivono la media sono stimati con la massima probabilità.

Può accadere che alcuni parametri siano stimati con la massima probabilità e altri no. Ad esempio, si consideri un GLM di Poisson sovradisperso: il parametro di dispersione non verrà stimato con la massima probabilità, poiché in questo caso l'MLE non è utile.

Se assumiamo la distribuzione dei dati, troviamo due parametri

Bene, a volte potresti averne due, ma a volte hai un parametro, a volte tre o quattro o più.

uno per la media e uno per la varianza,

Stai forse pensando a un modello particolare? Questo non è sempre il caso. Prendi in considerazione la stima del parametro di una distribuzione esponenziale o di una distribuzione di Poisson o di una distribuzione binomiale. In ognuno di questi casi, c'è un parametro e la varianza è una funzione del parametro che descrive la media.

Oppure considera una distribuzione gamma generalizzata , che ha tre parametri. O una distribuzione beta a quattro parametri , che ha (forse non sorprendentemente) quattro parametri. Si noti inoltre che (a seconda della particolare parametrizzazione) la media o la varianza o entrambe potrebbero non essere rappresentate da un singolo parametro ma dalle funzioni di molti di essi.

Ad esempio, la distribuzione gamma, per la quale ci sono tre parametrizzazioni che vedono un uso abbastanza comune - i due più comuni dei quali hanno sia la media che la varianza essendo funzioni di due parametri.

Tipicamente in un modello di regressione o in un GLM, o in un modello di sopravvivenza (tra molti altri tipi di modello), il modello può dipendere da più predittori, nel qual caso la distribuzione associata a ciascuna osservazione sotto il modello può avere uno dei suoi parametri (o anche diversi parametri) che sono correlati a molte variabili predittive ("variabili indipendenti").


5
"Quando le persone hanno un modello distributivo parametrico." Non dimenticare la stima della massima verosimiglianza non parametrica, per includere la verosimiglianza empirica.
Mark L. Stone,

3
@Mark Relativamente più raro, però. Aggiungerò una parola alla mia risposta.
Glen_b

Possiamo usare la stima della massima verosimiglianza anche se ipotizziamo che la distribuzione, ad esempio, sia normale? Penso che non ce ne sia bisogno ma possiamo ancora usarlo, vero?
user122358

@ user122358 Glen e Mark ti hanno già risposto. Puoi assumere una distribuzione o no. Il più delle volte si assume una funzione di distribuzione e quindi di probabilità.
HelloWorld,

3
"Quando le persone hanno un modello distributivo parametrico." Non dimenticare la stima semi-parametrica della massima verosimiglianza, per includere la verosimiglianza parziale. ;)
Scortchi - Ripristina Monica

8

Mentre gli stimatori della massima verosimiglianza possono sembrare sospetti, dati i presupposti sulla distribuzione dei dati, vengono spesso utilizzati gli stimatori della massima verosimiglianza Quasi. L'idea è iniziare assumendo una distribuzione e risolvendo il MLE, quindi rimuovere il presupposto distributivo esplicito e osservare invece come si comporta lo stimatore in condizioni più generali. Quindi il Quasi MLE diventa semplicemente un modo intelligente per ottenere uno stimatore, e la maggior parte del lavoro deriva quindi dalle proprietà dello stimatore. Dal momento che le ipotesi distributive vengono eliminate, il quasi MLE di solito non ha le buone proprietà di efficienza.

Come esempio giocattolo, supponiamo di avere un campione iid , e si desidera uno stimatore per la varianza di X . Si potrebbe iniziare dal presupposto X ~ N ( μ , σ 2 ) , scrivere la probabilità utilizzando il pdf normale, e risolvere per l'argmax per ottenere σ 2 = n - 1 Σ ( x i - ˉ x ) 2 . Possiamo quindi porre domande come in quali condizionix1,x2,...,xnXXN(μ,σ2)σ^2=n1(xix¯)2uno stimatore consistente, è esso imparziale (non è), è esso radice n coerente, ciò è la sua distribuzione asypmtotic, etc.σ^2


Inoltre, puoi controllare questa discussione sull'intuizione dietro il Quasi MLE.
Richard Hardy,

5

La stima della massima verosimiglianza viene spesso utilizzata nell'apprendimento automatico per addestrare:

Si noti che in alcuni casi si preferisce aggiungere una certa regolarizzazione, che a volte equivale alla stima a posteriori massima , ad es. Perché la penalità del lazo è equivalente alla doppia esponenziale (Laplace) precedente? .


3

Qualcuno può dirmi un semplice caso in cui viene utilizzato?

Un caso molto tipico è nella regressione logistica. La regressione logistica è una tecnica utilizzata spesso nell'apprendimento automatico per classificare i punti dati. Ad esempio, la regressione logistica può essere utilizzata per classificare se un'e-mail è spam o non spam o classificare se una persona ha o meno una malattia.

xihθ(xi)=P[yi=1]=11+eθTxi

θ

θ^i=1nyilog(hθ^(xi))+(1yi)log(1hθ^(xi))


1

Stiamo usando MLE tutto il tempo, ma potremmo non sentirlo. Darò due semplici esempi da mostrare.

Esempio 1

Se osserviamo il risultato del lancio della moneta, con 8 uscire di testa 10 capovolge (supponendo iid. da Bernoulli), come indovinare il parametro θ(prob di testa) della moneta? Potremmo direθ=0.8, usando "conteggio".

Perché usare il conteggio? questo in realtà sta implicitamente usando MLE! Dov'è il problema

aumentare al massimoθ   θ8(1-θ)2

Per risolvere l'equazione, avremo bisogno di alcuni calcoli, ma la conclusione sta contando.

Esempio 2

Come stimeremmo i parametri di una distribuzione gaussiana dai dati? Usiamo la media empirica come media stimata e la varianza empirica come varianza stimata, che proviene anche da MLE !.


6
L'esempio 1 è anche una soluzione di Bayes e un metodo di momenti (MM) (e probabilmente è la soluzione che utilizza anche altre procedure). L'esempio 2 è la soluzione MM. Sarebbe molto più convincente esibire procedure che sono esclusivamente MLE, altrimenti non si avrebbe mai bisogno di MLE.
whuber

Perché l'esempio 1 diventa una soluzione Bayes e l'esempio 2 diventa la soluzione MM? Che cos'è MM, a proposito?
user122358

@ user122358 MM è il metodo dei momenti. Vedi qui, ad esempio: en.wikipedia.org/wiki/Method_of_moments_(statistics)
jld

0

Alcuni usi di massima verosimiglianza nella comunicazione wireless:

  • Decodifica di dati digitali da segnali rumorosi ricevuti, con o senza codici ridondanti.
  • Stima degli offset di tempo, fase e frequenza nei ricevitori.
  • Stima del (parametro del) canale di propagazione.
  • Stima di ritardo, angolo di arrivo e spostamento Doppler (ad es. Radar).
  • Stima di una posizione mobile (ad es. GPS).
  • Stima degli offset dell'orologio per la sincronizzazione di tutti i tipi di impostazioni distribuite.
  • Una moltitudine di procedure di calibrazione.
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.