Quando funziona la massima probabilità e quando no?


16

Sono confuso riguardo al metodo della massima verosimiglianza rispetto ad esempio al calcolo della media aritmetica.

Quando e perché la massima verosimiglianza produce stime "migliori" rispetto alla media aritmetica? Come è verificabile?


4
+1 Questa è una buona domanda da porre a qualsiasi procedura statistica.
whuber

3
Non penso che questa domanda sia troppo chiara. Certamente l'OP non è chiaro, ma è per questo che lo chiedono. Le questioni relative alla natura dell'MLE e dei mezzi aritmetici dovrebbero essere chiarite con una buona risposta.
gung - Ripristina Monica

3
Cosa intendi con "migliore"? E perché l'aritmetica significherebbe essere un buon stimatore di un parametro arbitrario?
Xi'an,

4
Non è possibile rispondere alla domanda senza prima impostare una definizione di "migliore", cioè di una funzione di perdita o un altro criterio che consenta di confrontare gli stimatori. Ad esempio, l'MLE è efficiente, il che significa che non esiste uno stimatore con una varianza asintotica minore (in alcune condizioni di regolarità). E per esempio l'MLE può essere inammissibile come dimostrato dall'effetto Stein , il che significa che esistono stimatori con un rischio quadratico inferiore per tutti i valori del parametro con alcuni vincoli sulla distribuzione del campione e sulla dimensione del parametro.
Xi'an,

2
@ Xi'an Sembra la base di una risposta.
whuber

Risposte:


10

Mentre la media aritmetica può sembrare lo stimatore "naturale", ci si potrebbe chiedere perché dovrebbe essere preferito all'MLE! L'unica proprietà sicura associata alla media aritmetica è che è uno stimatore imparziale di quando viene definita questa aspettativa. (Pensa alla distribuzione di Cauchy come controesempio.) Il successivo gode in effetti di una vasta gamma di proprietà in condizioni di regolarità sulla funzione di verosimiglianza. Per prendere in prestito dalla pagina di Wikipedia , il MLE è E[X]x¯E[X]

  1. coerente
  2. asintoticamente normale
  3. efficiente in quanto raggiunge la minima varianza asintotica
  4. invariante sotto trasformazioni biiettive
  5. all'interno del set di parametri anche per set di parametri vincolati

Rispetto alla media aritmetica, la maggior parte di tali proprietà è soddisfatta anche per distribuzioni abbastanza regolari. Tranne 4 e 5. Nel caso di famiglie esponenziali, la MLE e la media aritmetica sono identiche per stimare il parametro nella parametrizzazione media (ma non per altre parametrizzazioni). E il MLE esiste per un campione dalla distribuzione di Cauchy.

Tuttavia, quando si passa a proprietà di ottimalità del campione finite come minimaxità o ammissibilità, può accadere che l'MLE non sia né minimax né ammissibile. Ad esempio, l'effetto Stein mostra che esistono stimatori con un rischio quadratico minore per tutti i valori del parametro con alcuni vincoli sulla distribuzione del campione e sulla dimensione del parametro. Questo è il caso in cui e p 3 .xNp(θ,Ip)p3


Giusto per chiarire la mle - le 5 proprietà elencate sono tutte nel contesto di un modello ipotizzato per la popolazione.
probabilityislogic

@CagdasOzgenc: sì il dominio è asintoticamente trascurabile, ma vale per ogni ..! Tuttavia, l'intervallo degli stimatori minimax di James-Stein si riduce di n poiché la costante di contrazione è compresa tra 0 e 2 ( p - 2 ) σ 2 / n dove p è la dimensione e σ 2 la varianza di un componente di osservazione. Non ho mai sentito parlare della minimaxità asintotica, però. n'Sn02(p-2)σ2/npσ2
Xi'an,

2

Interpretiamo "calcolare la media aritmetica" come stima usando il metodo dei momenti (MoM). Credo che sia fedele alla domanda originale poiché il metodo sostituisce le medie campionarie con quelle teoriche. Affronta anche la preoccupazione di @ Xi'an per un parametro arbitrario (da un modello arbitrario).

Se sei ancora con me, penso che un ottimo posto dove andare sia Esempi in cui il metodo dei momenti può battere la massima probabilità in piccoli campioni? Il testo della domanda sottolinea che "Gli stimatori della massima verosimiglianza (MLE) sono asintoticamente efficienti; vediamo il risultato pratico in quanto spesso fanno meglio delle stime del metodo dei momenti (MoM) (quando differiscono)" e cercano casi specifici in cui gli stimatori MoM ottenere un errore quadratico medio più piccolo rispetto alla sua controparte MLE. Alcuni esempi forniti sono nel contesto della regressione lineare, della distribuzione gaussiana inversa a due parametri e di una distribuzione esponenziale asimmetrica della potenza.

Questa idea di "efficienza asintotica" significa che gli stimatori della massima verosimiglianza sono probabilmente vicini all'utilizzo dei dati al massimo delle loro potenzialità (per stimare il parametro in questione), una garanzia che non si ottiene con il metodo dei momenti in generale. Mentre la massima verosimiglianza non è sempre "migliore" rispetto al lavorare con le medie, questa proprietà di efficienza (anche se solo nel limite) lo rende un metodo di riferimento per la maggior parte dei frequentatori. Naturalmente, il contrarian potrebbe sostenere che con la crescente dimensione dei set di dati, se si punta al target giusto con una funzione di medie, andare con esso.


1

Esistono numerosi esempi famosi in cui la massima verosimiglianza (ML) non fornisce la soluzione migliore. Vedi il documento di Lucien Le Cam del 1990: "Maximum Likelihood: an introduzione" [1] , tratto dalle sue lezioni invitate all'Univ. del Maryland.

L'esempio che mi piace di più, perché è così semplice, è questo:

XjYjj=1,...,nXj~N(μj,σ2)Yj~N(μj,σ2)jXjYjjσ2

Non rovinerò il divertimento dandoti la risposta, ma (nessuna sorpresa) ci sono due modi per risolverlo usando ML e offrono soluzioni diverse. Uno è la "media aritmetica" dei residui quadrati (come ci si aspetterebbe) e l'altra è metà della media aritmetica. Puoi trovare la risposta qui sulla mia pagina Github.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.