Quanto calcolo è necessario per comprendere la stima della massima verosimiglianza?


11

Sto cercando di pianificare un piano di studio per l'apprendimento dell'MLE. Per fare ciò sto cercando di capire qual è il livello minimo di calcolo necessario per capire MLE.

È sufficiente comprendere le basi del calcolo (ovvero trovare il minimo e il massimo delle funzioni) per comprendere l'MLE?


2
Come sempre, dipende . Se stai solo cercando di comprendere le basi, essere in grado di trovare estremi di funzioni ti dà un modo equo (anche se in molti casi pratici di MLE, la L è M numericamente, nel qual caso hai bisogno anche di altre abilità come alcuni calcoli di base).
Glen_b -Restate Monica

Grazie. Potresti spiegare il caso che hai citato in maggiore dettaglio? Sembra interessante.
histelheim,

ok ma ora devo farne una risposta. Un attimo.
Glen_b -Restate Monica

Risposte:


20

Espandere il mio commento - dipende. Se stai solo cercando di comprendere le basi, essere in grado di trovare estremi di funzioni ti dà un modo equo (anche se in molti casi pratici di MLE, la probabilità è massimizzata numericamente, nel qual caso hai bisogno di alcune altre abilità e di alcune calcolo di base).

Lascerò da parte i simpatici casi semplici in cui ottieni soluzioni algebriche esplicite. Anche così, il calcolo è spesso molto utile.

Mi assumerò l'indipendenza per tutto. Prendiamo il caso più semplice possibile di ottimizzazione a 1 parametro. Per prima cosa esamineremo un caso in cui possiamo prendere derivati ​​e separare una funzione del parametro e una statistica.

Considera la densità solun'mmun'(α,1)

fX(X;α)=1Γ(α)Xα-1exp(-X);X>0;α>0

Quindi per un campione di dimensione n , la probabilità è

L(α;X)=Πio=1nfX(Xio;α)

e quindi la probabilità logaritmica è

l(α;X)=Σio=1nlnfX(Xio;α)=Σio=1nln(1Γ(α)Xioα-1exp(-Xio))
=Σio=1n-lnΓ(α)+(α-1)lnXio-Xio
=-nlnΓ(α)+(α-1)SX-nX¯
doveSX=Σio=1nlnXio . Assunzione di derivati,

ddαl(α;X)=ddα(-nlnΓ(α)+(α-1)SX-nX¯)
=-nΓ'(α)Γ(α)+SX
=-nψ(α)+SX

Quindi, se abbiamo impostato che a zero e cercare di risolvere per α , possiamo ottenere questo: ψ ( α ) = ln G ( x )α^

ψ(α^)=lnsol(X)

ψ()sol()

α^

ψ(α^)=g

g=lnsol(X)

Questo non ha una soluzione in termini di funzioni elementari, deve essere calcolato numericamente; almeno siamo riusciti a ottenere una funzione del parametro da un lato e una funzione dei dati dall'altro. Esistono vari algoritmi di ricerca zero che potrebbero essere utilizzati se non si dispone di un modo esplicito di risolvere l'equazione (anche se si è senza derivate, ad esempio c'è una sezione binaria).

f(X;μ)=14sech2(X-μ2).
μ

θ

fX(X;θ)=1π(1+(X-θ)2).

In generale, la probabilità qui non ha un massimo locale unico, ma diversi massimi locali. Se trovi un massimo locale, potrebbe essercene un altro, più grande altrove. (A volte le persone si concentrano sull'identificazione del massimo locale più vicino alla mediana, o qualcosa del genere.)

(0,θ)

In altri casi, lo spazio dei parametri può essere discreto.

A volte trovare il massimo può essere abbastanza coinvolto.

E questo è solo un esempio dei problemi con un singolo parametro. Quando hai più parametri, le cose diventano di nuovo più coinvolte.


4

RpR

Alcune strutture con logaritmi saranno sicuramente utili, poiché massimizzare il logaritmo della probabilità è di solito molto più facile che massimizzare la probabilità stessa.

RpR

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.