Cercando di integrare le altre risposte ... Che tipo di informazioni sono le informazioni di Fisher? Inizia con la funzione loglikelihood
in funzione di θ per θ ∈ Θ , lo spazio dei parametri. Supponendo alcune condizioni di regolarità di cui non discutiamo qui, abbiamo
E ∂
ℓ(θ)=logf(x;θ)
θθ∈Θ(scriveremo le derivate rispetto al parametro come punti come qui). La varianza è l'informazione di Fisher
I(θ)=Eθ( ˙ ℓE∂∂θℓ(θ)=Eθℓ˙(θ)=0
l'ultima formula che mostra che si tratta della curvatura (negativa) della funzione di loglikelihood. Spesso si trova lo stimatore della massima verosimiglianza (mle) di
I(θ)=Eθ(ℓ˙(θ))2=−Eθℓ¨(θ)
risolvendo l'equazione di verosimiglianza
˙ ℓ ( θ ) = 0 quando le informazioni di Fisher come varianza del punteggio
˙ ℓ ( θ ) sono grandi, allora la soluzione di tale equazione sarà molto sensibile ai dati, dando una speranza per precisione della mle. Ciò è confermato almeno asintoticamente, la varianza asintotica della mle è l'inverso delle informazioni di Fisher.
θℓ˙( θ ) = 0ℓ˙( θ )
Come possiamo interpretarlo? sono le informazioni probabilità sul parametro θ dal campione. Questo può davvero essere interpretato solo in un senso relativo, come quando lo usiamo per confrontare le plausibilità di due valori di parametri possibili distinti tramite il test del rapporto di verosimiglianza ℓ ( θ 0 ) -ℓ ( θ )θ . Il tasso di variazione del loglikelihood è la funzione di punteggio ˙ ℓ ( θ ) ci dice quanto velocemente cambia la probabilità e la sua varianza I ( θ )ℓ ( θ0) - ℓ ( θ1)ℓ˙( θ )io( θ )quanto questo varia da campione a campione, ad un dato valore di parametro, diciamo . L'equazione (che è davvero sorprendente!)
I ( θ ) = - E θ ¨ ℓ ( θ ) θ 0 , e la curvatura della funzione di probabilità per quel valore di parametro. Questa è una relazione sorprendente tra la variabilità (varianza) della statistica ˙ ℓ ( θ ) ∣ θ = θ 0θ0
io( θ ) = - Eθℓ¨( θ )
ci dice che esiste una relazione (uguaglianza) tra la variabilità delle informazioni (verosimiglianza) per un dato valore di parametro,
θ0ℓ˙( θ ) ∣θ=θ0e il cambiamento atteso in similitudine quando variamo il parametro
in un intervallo intorno a
θ 0 (per gli stessi dati). Questo è davvero sia strano, sorprendente e potente!
θθ0
Quindi qual è la funzione di verosimiglianza? Di solito pensiamo al modello statistico come una famiglia di distribuzioni di probabilità per i dati x , indicizzata dal parametro θ{f(x;θ),θ∈Θ}xθ qualche elemento nello spazio dei parametri . Pensiamo che questo modello sia vero se esiste un valore θ 0 ∈ Θ tale che i dati x abbiano effettivamente la distribuzione di probabilità f ( x ; θ 0 )Θθ0∈Θxf(x;θ0). Quindi otteniamo un modello statistico incorporando la distribuzione di probabilità di generazione di dati reale in una famiglia di distribuzioni di probabilità. Ma è chiaro che un tale inganno può essere fatto in molti modi diversi, e ciascuno di essi sarà un modello "vero" e forniranno funzioni di probabilità diverse. E, senza un tale imbroglio, non esiste alcuna funzione di verosimiglianza. Sembra che abbiamo davvero bisogno di aiuto, di alcuni principi su come scegliere saggiamente un imbroglio!f(x;θ0)
Che cosa significa questo? Significa che la scelta della funzione di probabilità ci dice come ci aspetteremmo che i dati cambiassero, se la verità cambiasse un po '. Tuttavia, ciò non può essere realmente verificato dai dati, poiché i dati forniscono solo informazioni sulla vera funzione del modello che ha effettivamente generato i dati e non nulla su tutti gli altri elementi nel modello scelto. In questo modo vediamo che la scelta della funzione di verosimiglianza è simile alla scelta di un precedente nell'analisi bayesiana, inietta informazioni non di dati nell'analisi. Vediamo questo in un semplice esempio (un po 'artificiale) e guardiamo l'effetto dell'integrazione f ( x ; θ 0 )f(x;θ0)f(x;θ0) in un modello in diversi modi.
Supponiamo che siano iid come N ( μ = 10 , σ 2 = 1 ) . Quindi, questa è la vera distribuzione generatrice di dati. Ora, incorporiamo questo in un modello in due modi diversi, modello A e modello B.
A : X 1 , ... , X nX1,…,XnN(μ=10,σ2=1)
puoi verificare che questo coincida per μ = 10 .
A:X1,…,Xn iid N(μ,σ2=1),μ∈RB:X1,…,Xn iid N(μ,μ/10),μ>0
μ=10
Le funzioni di loglikelihood diventano
ℓA(μ)=−n2log(2π)−12∑i(xi−μ)2ℓB(μ)=−n2log(2π)−n2log(μ/10)−102∑i(xi−μ)2μ
Il punteggio funziona: (derivati di loglikelihood):
e le curvature
¨ ℓ A(μ)=-n
ℓ˙A(μ)=n(x¯−μ)ℓ˙B(μ)=−n2μ−102∑i(xiμ)2−15n
, quindi, le informazioni di Fisher dipendono davvero dall'incorporamento. Ora, calcoliamo le informazioni di Fisher al valore reale
μ=10,
IA(μ=10)=n,ℓ¨A(μ)=−nℓ¨B(μ)=n2μ2+102∑i2x2iμ3
μ=10
quindi le informazioni di Fisher sul parametro sono leggermente più grandi nel modello B.
IA(μ=10)=n,IB(μ=10)=n⋅(1200+20202000)>n
Questo dimostra che, in un certo senso, le informazioni di Fisher ci dicono quanto velocemente le informazioni dai dati sul parametro sarebbero cambiate se il parametro di governo fosse cambiato nel modo postulato dall'incorporamento in una famiglia di modelli . La spiegazione di maggiori informazioni nel modello B è che la nostra famiglia di modelli B postula che se l'attesa fosse aumentata, anche la varianza sarebbe aumentata . In modo che, nel modello B, la varianza del campione porti anche informazioni su , cosa che non farà nel modello A.μ
Inoltre, questo esempio mostra che abbiamo davvero bisogno di qualche teoria per aiutarci a costruire famiglie modello.