Perché vengono utilizzate esattamente le informazioni Fisher osservate?


17

Nell'impostazione della probabilità massima standard (tra il campione da una distribuzione con densità )) e nel caso di un modello correttamente specificato, il Fisher le informazioni sono fornite daY1,,Ynfy(y|θ0

I(θ)=Eθ0[2θ2lnfy(θ)]

dove viene presa l'aspettativa rispetto alla densità reale che ha generato i dati. Ho letto che l'informazione Fisher osservata

J^(θ)=2θ2lnfy(θ)

viene utilizzato principalmente perché l'integrale coinvolto nel calcolo delle (attese) Informazioni sul pescatore potrebbe non essere fattibile in alcuni casi. Ciò che mi confonde è che anche se l'integrale è fattibile, bisogna aspettarsi rispetto al modello vero, che implica il valore del parametro sconosciuto . Se questo è il caso sembra che senza sapere è impossibile calcolare . È vero?θ0θ0I

Risposte:


13

Hai quattro quanties qui: il vero parametro , una stima coerente θ , le informazioni previste I ( θ ) a θ e l'informazione osservata J ( θ ) a θ . Queste quantità sono equivalenti solo asintoticamente, ma in genere è così che vengono utilizzate.θ0θ^I(θ)θJ(θ)θ

  1. Le informazioni osservate converge in probabilità alle informazioni previste I(θ0)=Eθ0[2

    J(θ0)=1Ni=1N2θ02lnf(yi|θ0)
    quandoYè un campione iid da f(θ0). QuiEθ0(x)indica l'aspettativa w / r / t la distribuzione indicizzata daθ0:xf(x|θ0)dx. Questa convergenza vale a causa della legge dei grandi numeri, quindi il presupposto cheYf(
    I(θ0)=Eθ0[2θ02lnf(y|θ0)]
    Yf(θ0)Eθ0(x)θ0xf(x|θ0)dx è cruciale qui.Yf(θ0)
  2. Quando hai una stima θ che converge in probabilità alla vera parametro θ 0 (vale a dire, è coerente), allora è possibile sostituire per nessuna parte si vede un θ 0 sopra, essenzialmente a causa del continuo mappatura teorema * , e tutto delle convergenze continuano a essere valide.θ^θ0θ0

In realtà, sembra essereun po 'sottile.

osservazione

Come hai ipotizzato, le informazioni osservate sono in genere più facili da utilizzare perché la differenziazione è più semplice dell'integrazione e potresti averla già valutata nel corso di un'ottimizzazione numerica. In alcune circostanze (la distribuzione normale) saranno gli stessi.

L'articolo "Valutare la precisione dello stimatore della massima verosimiglianza: osservata contro le informazioni attese sul pescatore" di Efron e Hinkley (1978) fa un argomento a favore delle informazioni osservate per campioni finiti.


4

Ci sono stati alcuni studi di simulazione che sembrano supportare le osservazioni teoriche di Efron & Hinkley (che sono menzionate nella risposta di Andrew), eccone uno che conosco di persona: Maldonado, G. e Greenland, S. (1994). Un confronto delle prestazioni degli intervalli di confidenza basati sul modello quando la forma del modello corretta non è nota. Epidemiologia, 5, 171-182. Non ho visto studi in conflitto. È interessante quindi che i pacchetti GLM standard che conosco utilizzino le informazioni previste per calcolare gli intervalli Wald. Naturalmente questo non è un problema quando (come nei GLM lineari nel parametro naturale) le matrici delle informazioni osservate e previste sono uguali.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.