Che tipo di informazioni sono le informazioni di Fisher?


29

Supponiamo di avere una variabile casuale Xf(x|θ) . Se θ0 fosse il parametro vero, la funzione di verosimiglianza dovrebbe essere massimizzata e la derivata uguale a zero. Questo è il principio alla base dello stimatore della massima verosimiglianza.

A quanto ho capito, le informazioni di Fisher sono definite come

I(θ)=E[(θf(X|θ))2]

Pertanto, se θ0 è il parametro vero, I(θ)=0 . Ma se θ0 non è il parametro vero, avremo una maggiore quantità di informazioni Fisher.

le mie domande

  1. Le informazioni Fisher misurano l '"errore" di un determinato MLE? In altre parole, l'esistenza di informazioni Fisher positive non implica che il mio MLE non possa essere l'ideale?
  2. In che modo questa definizione di "informazione" differisce da quella usata da Shannon? Perché le chiamiamo informazioni?

Perché lo scrivi Eθ ? L'attesa è sui valori di X distribuiti come se provenissero dalla tua distribuzione con il parametro θ .
Neil G,

3
Anche I(θ) non è zero sul parametro vero.
Neil G,

La E (S) è zero (cioè: aspettativa della funzione di punteggio), ma come ha scritto Neil G - le informazioni sul pescatore (V (S)) non sono (di solito) zero.
Tal Galili,

Risposte:


15

Cercando di integrare le altre risposte ... Che tipo di informazioni sono le informazioni di Fisher? Inizia con la funzione loglikelihood in funzione di θ per θ Θ , lo spazio dei parametri. Supponendo alcune condizioni di regolarità di cui non discutiamo qui, abbiamo E

(θ)=logf(x;θ)
θθΘ(scriveremo le derivate rispetto al parametro come punti come qui). La varianza è l'informazione di Fisher I(θ)=Eθ( ˙ Eθ(θ)=Eθ˙(θ)=0 l'ultima formula che mostra che si tratta della curvatura (negativa) della funzione di loglikelihood. Spesso si trova lo stimatore della massima verosimiglianza (mle) di
I(θ)=Eθ(˙(θ))2=Eθ¨(θ)
risolvendo l'equazione di verosimiglianza ˙ ( θ ) = 0 quando le informazioni di Fisher come varianza del punteggio ˙ ( θ ) sono grandi, allora la soluzione di tale equazione sarà molto sensibile ai dati, dando una speranza per precisione della mle. Ciò è confermato almeno asintoticamente, la varianza asintotica della mle è l'inverso delle informazioni di Fisher.θ˙(θ)=0˙(θ)

Come possiamo interpretarlo? sono le informazioni probabilità sul parametro θ dal campione. Questo può davvero essere interpretato solo in un senso relativo, come quando lo usiamo per confrontare le plausibilità di due valori di parametri possibili distinti tramite il test del rapporto di verosimiglianza ( θ 0 ) -(θ)θ . Il tasso di variazione del loglikelihood è la funzione di punteggio ˙ ( θ ) ci dice quanto velocemente cambia la probabilità e la sua varianza I ( θ )(θ0)(θ1)˙(θ)I(θ)quanto questo varia da campione a campione, ad un dato valore di parametro, diciamo . L'equazione (che è davvero sorprendente!) I ( θ ) = - E θ ¨ ( θ ) θ 0 , e la curvatura della funzione di probabilità per quel valore di parametro. Questa è una relazione sorprendente tra la variabilità (varianza) della statistica ˙ ( θ ) θ = θ 0θ0

io(θ)=-Eθ¨(θ)
ci dice che esiste una relazione (uguaglianza) tra la variabilità delle informazioni (verosimiglianza) per un dato valore di parametro, θ0˙(θ)θ=θ0e il cambiamento atteso in similitudine quando variamo il parametro in un intervallo intorno a θ 0 (per gli stessi dati). Questo è davvero sia strano, sorprendente e potente!θθ0

Quindi qual è la funzione di verosimiglianza? Di solito pensiamo al modello statistico come una famiglia di distribuzioni di probabilità per i dati x , indicizzata dal parametro θ{f(x;θ),θΘ}xθ qualche elemento nello spazio dei parametri . Pensiamo che questo modello sia vero se esiste un valore θ 0Θ tale che i dati x abbiano effettivamente la distribuzione di probabilità f ( x ; θ 0 )Θθ0Θxf(x;θ0). Quindi otteniamo un modello statistico incorporando la distribuzione di probabilità di generazione di dati reale in una famiglia di distribuzioni di probabilità. Ma è chiaro che un tale inganno può essere fatto in molti modi diversi, e ciascuno di essi sarà un modello "vero" e forniranno funzioni di probabilità diverse. E, senza un tale imbroglio, non esiste alcuna funzione di verosimiglianza. Sembra che abbiamo davvero bisogno di aiuto, di alcuni principi su come scegliere saggiamente un imbroglio!f(x;θ0)

Che cosa significa questo? Significa che la scelta della funzione di probabilità ci dice come ci aspetteremmo che i dati cambiassero, se la verità cambiasse un po '. Tuttavia, ciò non può essere realmente verificato dai dati, poiché i dati forniscono solo informazioni sulla vera funzione del modello che ha effettivamente generato i dati e non nulla su tutti gli altri elementi nel modello scelto. In questo modo vediamo che la scelta della funzione di verosimiglianza è simile alla scelta di un precedente nell'analisi bayesiana, inietta informazioni non di dati nell'analisi. Vediamo questo in un semplice esempio (un po 'artificiale) e guardiamo l'effetto dell'integrazione f ( x ; θ 0 )f(x;θ0)f(x;θ0) in un modello in diversi modi.

Supponiamo che siano iid come N ( μ = 10 , σ 2 = 1 ) . Quindi, questa è la vera distribuzione generatrice di dati. Ora, incorporiamo questo in un modello in due modi diversi, modello A e modello B. A : X 1 , ... , X nX1,,XnN(μ=10,σ2=1) puoi verificare che questo coincida per μ = 10 .

A:X1,,Xn iid N(μ,σ2=1),μRB:X1,,Xn iid N(μ,μ/10),μ>0
μ=10

Le funzioni di loglikelihood diventano

A(μ)=n2log(2π)12i(xiμ)2B(μ)=n2log(2π)n2log(μ/10)102i(xiμ)2μ

Il punteggio funziona: (derivati ​​di loglikelihood): e le curvature ¨ A(μ)=-n

˙A(μ)=n(x¯μ)˙B(μ)=n2μ102i(xiμ)215n
, quindi, le informazioni di Fisher dipendono davvero dall'incorporamento. Ora, calcoliamo le informazioni di Fisher al valore realeμ=10, IA(μ=10)=n,
¨A(μ)=n¨B(μ)=n2μ2+102i2xi2μ3
μ=10 quindi le informazioni di Fisher sul parametro sono leggermente più grandi nel modello B.
IA(μ=10)=n,IB(μ=10)=n(1200+20202000)>n

Questo dimostra che, in un certo senso, le informazioni di Fisher ci dicono quanto velocemente le informazioni dai dati sul parametro sarebbero cambiate se il parametro di governo fosse cambiato nel modo postulato dall'incorporamento in una famiglia di modelli . La spiegazione di maggiori informazioni nel modello B è che la nostra famiglia di modelli B postula che se l'attesa fosse aumentata, anche la varianza sarebbe aumentata . In modo che, nel modello B, la varianza del campione porti anche informazioni su , cosa che non farà nel modello A.μ

Inoltre, questo esempio mostra che abbiamo davvero bisogno di qualche teoria per aiutarci a costruire famiglie modello.


1
ottima spiegazione. Perché dici ? è una funzione di θ - non è 0 solo se valutato con il parametro vero θ 0 ? \Eθ˙(θ)=0θθ0
ihadanny,

1
Sì, quello che dici è vero, @idadanny È zero quando valutato al valore del parametro vero.
kjetil b halvorsen,

Grazie ancora @kjetil - quindi solo un'altra domanda: la sorprendente relazione tra la varianza del punteggio e la curvatura della probabilità è vera per ogni ? o solo in prossimità del parametro vero θ 0 ? θθ0
ihadanny,

Ancora una volta, quella relazione è vera per il valore del parametro vero. Ma per che per essere di grande aiuto, ci deve essere una continuità, in modo che sia circa il vero in una certa zona, dal momento che lo useremo al valore stimato θ , non solo al valore vero (sconosciuto). θ^
kjetil b halvorsen,

quindi, la relazione vale per il vero parametro , vale quasi per θ m l e poiché ipotizziamo che sia vicina a θ 0 , ma per un generale θ 1 non regge, giusto? θ0θmleθ0θ1
ihadanny,

31

θθ

Considera che hai avuto un modello grande con milioni di parametri. E avevi una piccola chiavetta su cui riporre il tuo modello. Come si dovrebbe dare la priorità a quanti bit di ciascun parametro memorizzare? La risposta giusta è allocare bit in base alle informazioni di Fisher (Rissanen ha scritto a riguardo). Se le informazioni Fisher di un parametro sono zero, quel parametro non ha importanza.

Le chiamiamo "informazioni" perché le informazioni di Fisher misurano quanto questo parametro ci dice sui dati.


Un modo colloquiale di pensarci è questo: Supponiamo che i parametri guidino un'auto e che i dati siano sul sedile posteriore correggendo il guidatore. La fastidiosità dei dati è l'informazione di Fisher. Se i dati consentono al guidatore di guidare, le informazioni di Fisher sono zero; se i dati apportano costantemente correzioni, è grande. In questo senso, l'informazione di Fisher è la quantità di informazioni che va dai dati ai parametri.

Considera cosa succede se rendi il volante più sensibile. Ciò equivale a una riparametrizzazione. In tal caso, i dati non vogliono essere così rumorosi per paura del sovrasterzo dell'auto. Questo tipo di riparametrizzazione riduce le informazioni di Fisher.


20

Complementare alla bella risposta di @ NeilG (+1) e per rispondere a domande specifiche:

  1. Direi che conta la "precisione" piuttosto che l '"errore" stesso.

IIj,jtr(I)deve essere positivo. Ciò significa che puoi avere solo stimatori "non ideali" secondo la tua affermazione. Quindi no, un'informazione Fisher positiva non è correlata a quanto sia ideale il tuo MLE.

  1. La definizione differisce nel modo in cui interpretiamo la nozione di informazione in entrambi i casi. Detto questo, le due misurazioni sono strettamente correlate.

p·log2(p)pè la probabilità che la variabile assuma il valore. Entrambe sono misurazioni di quanto sia "istruttiva" una variabile. Nel primo caso però giudichi queste informazioni in termini di precisione mentre nel secondo caso in termini di disordine; facce diverse, stessa medaglia! : D

I

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.