Qual è la migliore verosimiglianza massima o marginale e perché?


13

Mentre eseguiamo la regressione se andiamo dalla definizione di: Qual è la differenza tra una probabilità parziale, la probabilità del profilo e la probabilità marginale?

quello, massima verosimiglianza
Trova β e θ che massimizza L (β, θ | dati).

Mentre, verosimiglianza marginale
Integriamo θ dall'equazione di verosimiglianza sfruttando il fatto che siamo in grado di identificare la distribuzione di probabilità di θ condizionata a β.

Qual è la metodologia migliore per massimizzare e perché?

Risposte:


14

Ognuno di questi darà risultati diversi con una diversa interpretazione. Il primo trova la coppia , θ che è il più probabile, mentre il secondo trova il β che è (marginalmente) il più probabile. Immagina che la tua distribuzione assomigli a questo:βθβ

    β=1β=2
θ=10.0 0.2 
θ=20.1 0.2 
θ=30.3 0.2 

Quindi la risposta di massima verosimiglianza è ( θ = 3 ), mentre la risposta di massima verosimiglianza marginale è β = 2 (poiché, marginalizzando su θ , P ( β = 2 ) = 0.6 ).β=1θ=3β=2θP(β=2)=0.6

Direi che in generale, la probabilità marginale è spesso ciò che vuoi - se davvero non ti importa dei valori dei parametri allora dovresti semplicemente crollare su di essi. Ma probabilmente in pratica questi metodi non produrranno risultati molto diversi: in tal caso, potrebbe indicare una instabilità di base nella soluzione, ad esempio modalità multiple con diverse combinazioni di β , θ che forniscono previsioni simili.θβθ


Ho trovato risultati diversi per i metodi di verosimiglianza massima / marginale e quindi la domanda. Direi che i due risultati nel mio caso danno interpretazioni diverse ma possibili risultati.
Ankit Chiplunkar,

5

Sto affrontando questa domanda da solo adesso. Ecco un risultato che può essere utile. Considera il modello lineare

y=Xβ+ϵ,ϵN(0,σ2)

dove e βyRn,βRp,β e sono i parametri di interesse. La probabilità congiunta èσ2

L(β,σ2)=(2πσ2)n/2exp(||yXβ||22σ2)

Ottimizzazione dei rendimenti di probabilità congiunta

β^=X+y

σ^2=1n||r||2

dove è il pseudoinversa di X e R = y - X β è il vettore dei residui vestibilità. Si noti che in σ 2 abbiamo 1 / n invece dei gradi di libertà familiari corretto rapporto 1 / ( n - p ) . Questo stimatore è noto per essere distorto nel caso del campione finito.X+Xr=yXβ^σ^21/n1/(np)

Ora supponiamo invece di ottimizzare sia su che σ 2 , integriamo β out e stimiamo σ 2 dalla probabilità integrata risultante:βσ2βσ2

σ^2=maxσ2RpL(β,σ2)dβ

Usando l'algebra lineare elementare e la formula integrale gaussiana, puoi dimostrarlo

σ^2=1np||r||2

Questo ha la correzione del grado di libertà che la rende imparziale e generalmente favorita rispetto alla stima ML congiunta.

Da questo risultato ci si potrebbe chiedere se c'è qualcosa di intrinsecamente vantaggioso nella probabilità integrata, ma non conosco alcun risultato generale che risponda a tale domanda. Il consenso sembra essere che ML integrato è meglio nel tenere conto dell'incertezza nella maggior parte dei problemi di stima. In particolare, se si sta stimando una quantità che dipende da altre stime di parametri (anche implicitamente), l'integrazione con gli altri parametri spiegherà meglio le loro incertezze.


1
Questo è interessante. Sono, tuttavia, un po 'turbato dal fatto che "integrare " utilizza una distribuzione marginale non valida, nonché dall'assenza di qualsiasi giustificazione apparente per l'utilizzo di questo (improprio) marginale rispetto a qualsiasi altro. Che cosa pensi di questi problemi? β
whuber

1
@whuber Condivido le tue preoccupazioni e non ho una risposta pronta, ma nota che la probabilità di essere emarginato è solo un posteriore con un precedente improprio uniforme su , quindi penso che questo sia legato all'approccio "obiettivo bayesiano". Non ci importa se un parametro come β ha una distribuzione precedente impropria, purché il posteriore sia integrabile. ββ
Paul,

In realtà, sulla base di questo post e dei commenti, penso che ML integrato, non ML marginale, sia il termine giusto per quello che stiamo facendo qui. Modificato di conseguenza.
Paolo,

1
+1 So che sono abbastanza tardi per questa festa, ma non sto integrando gli effetti fissi mettendo un'uniforme impropria prima di loro esattamente ciò che REML fa, quindi in realtà hai appena ottenuto la stima REML e questa correzione df è esattamente la ragione qui che REML è meglio per campioni più piccoli?
1818

@Chaconne sì, questo post è stato motivato dal tentativo di comprendere REML! Non ho (quasi) nessuna educazione statistica formale, quindi derivarne era tutto nuovo per me.
Paolo,

4

ββθθθθθip(θi)θdata, you can optimize the marginal likelihood w.r.t. β.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.