Esiste sempre un ottimizzatore per qualsiasi problema MLE?


23

Mi chiedo se esiste sempre un massimizzatore per qualsiasi problema di stima della massima verosimiglianza? In altre parole, esiste una distribuzione e alcuni dei suoi parametri, per i quali il problema MLE non ha un massimizzatore?

La mia domanda deriva da una dichiarazione di un ingegnere secondo cui la funzione di costo (probabilità o verosimiglianza, non sono sicuro di quale fosse l'intenzione) in MLE è sempre concava e quindi ha sempre un massimizzatore.

Grazie e saluti!


8
(+1) Sei sicuro che non ci siano alcune qualifiche che non sono state dichiarate nella tua domanda? Allo stato attuale, l'affermazione dell'ingegnere è falsa in così tanti modi diversi che è quasi difficile sapere da dove cominciare. :)
cardinale

@cardinale: ho praticamente scritto ciò che ho sentito. Ma ammetto che potrei perdere qualcosa.
Tim

5
Controesempio (convessità): Sia essere N ( 0 , σ 2 ) . Sebbene esista un MLE unico, né la probabilità né la probabilità logaritmica sono convesse in σ 2 . X1,X2,...,XnN(0,σ2)σ2
cardinale

3
@Tim La regressione logistica è un esempio di base in cui l'MLE non esiste sempre. Inoltre, per alcune funzioni di collegamento la probabilità logaritmica non è concava.

Risposte:


30

Forse l'ingegnere aveva in mente famiglie esponenziali canoniche: nella loro parametrizzazione naturale, lo spazio dei parametri è convesso e la probabilità di log è concava (vedi Thm 1.6.3 in Mathematical Statistics di Bickel & Doksum , Volume 1 ). Inoltre, in alcune condizioni tecniche lievi (fondamentalmente che il modello è "full rank", o equivalentemente, che il parametro naturale è identificabile), la funzione di verosimiglianza logaritmica è strettamente concava, il che implica che esiste un massimizzatore unico. (Corollario 1.6.2 nello stesso riferimento.) [Inoltre, gli appunti delle lezioni citati da @biostat fanno lo stesso punto.]

Si noti che la parametrizzazione naturale di una famiglia esponenziale canonica è generalmente diversa dalla parametrizzazione standard. Quindi, mentre @cardinal sottolinea che la probabilità logaritmica per la famiglia non è convessa in σ 2 , sarà concava nei parametri naturali, che sono η 1 = μ / σ 2 e η 2 = - 1 / σ 2 . N(μ,σ2)σ2η1=μ/σ2η2=-1/σ2


2
(+1) Bella risposta. Come accennato nei miei commenti all'OP, questa è la risposta che speravo fosse pubblicata (anche il controesempio è stato scelto con cura tenendo presente ciò). :)
cardinale

2
Puoi mostrarlo nel modello gaussiano multivariato?
Royi,

6

La funzione di verosimiglianza raggiunge spesso il massimo per la stima del parametro di interesse. Tuttavia, a volte MLE non esiste, come per la distribuzione della miscela gaussiana o funzioni non parametriche, che ha più di un picco (bi o multimodale). Mi trovo spesso ad affrontare il problema della stima dei parametri sconosciuti della genetica della popolazione, cioè i tassi di ricombinazione, l'effetto della selezione naturale.

Uno dei motivi anche per cui @cardinal sottolinea che è lo spazio parametrico illimitato.

Inoltre, consiglierei l' articolo seguente , vedere la sezione 3 (per la funzione) e la Fig.3. Tuttavia, ci sono informazioni sul documento abbastanza utili e utili su MLE.


3
Penso di aver frainteso il tuo esempio dichiarato. Quali funzioni quadratiche hanno più di un picco?
cardinale

@cardinale: fammi provare a spiegare. Il punto sul parametro illimitato è uno dei motivi per cui la funzione di probabilità non raggiunge il massimo anche nel semplice esempio di distribuzione normale. Tuttavia, dal punto di vista dell'ottimizzazione, il mio punto è che esiste un problema popolare dei massimi locali e globali. Ho affrontato questo problema spesso nella genetica delle popolazioni mentre stavo valutando i tassi di ricombinazione. Inoltre vedi questo articolo sezione 3 (per funzione) e Fig 3. URL articolo: citeseerx.ist.psu.edu/viewdoc/…
Biostat

Quindi stai dicendo "funzioni quadratiche con più di un picco" è forse un riferimento, ad esempio, a un modello di miscela gaussiana? In tal caso, una modifica potrebbe probabilmente chiarire un po 'di confusione.
cardinale

Ora è aggiornato.
Biostat,

2
(+1) Per l'aggiornamento. Si noti che nei modelli di miscele gaussiane sono presenti sia la probabilità illimitata che i massimi locali multipli, in generale. A peggiorare le cose, la probabilità diventa illimitata a soluzioni particolarmente patologiche. In generale, i massimi multipli potrebbero non essere così gravi di un problema. In alcuni casi, questi massimi convergono l'uno con l'altro abbastanza velocemente che la raccolta di uno di essi può ancora produrre uno stimatore ragionevole (uniforme, efficiente) del parametro di interesse in modo asintotico.
cardinale

3

Ammetto che mi potrebbe mancare qualcosa, ma -

Se questo è un problema di stima e l'obiettivo è stimare un parametro sconosciuto e si sa che il parametro proviene da un insieme chiuso e limitato e la funzione di probabilità è continua, allora deve esistere un valore per questo parametro che massimizza la funzione di verosimiglianza. In altre parole, deve esistere un massimo. (Non è necessario che sia univoco, ma deve esistere almeno un massimo. Non vi è alcuna garanzia che tutti i massimi locali saranno massimi globali, ma non è una condizione necessaria affinché esista un massimo).

Non so se la funzione di verosimiglianza debba sempre essere convessa, ma questa non è una condizione necessaria perché esista un massimo.

Se ho trascurato qualcosa, mi farebbe piacere sentire cosa mi manca.


4
In assenza di ipotesi aggiuntive, l'affermazione fornita riguardo ai massimi è falsa. Ad esempio, se lo spazio dei parametri è chiuso e limitato e la funzione di probabilità è continua nei parametri, allora deve esistere un massimo. In assenza di una di queste condizioni aggiuntive, il risultato non è necessario. Per quanto riguarda la convessità, fallisce anche nel più semplice e comune degli esempi. :)
cardinale

2
(+1) Il limite dello spazio dei parametri non è valido in molti casi semplici, anche. Ma, ai fini pratici, generalmente sappiamo che i nostri parametri sono limitati. :)
cardinale

3

Forse qualcuno troverà utile il seguente esempio semplice.

Valuta di lanciare una moneta una volta. Permettereθdenota la probabilità delle teste. Se è noto che la moneta può arrivare sia a testa che a croce, alloraθ(0,1). Dal momento che il set(0,1)è aperto, lo spazio dei parametri non è compatto. La probabilità diθ è dato da

{θteste1-θcode.
In nessun caso esiste un limite massimo per θ su (0,1).
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.