Non mi sento a mio agio con le informazioni di Fisher, cosa misura e come sono utili. Inoltre, la relazione con il limite di Cramer-Rao non mi è evidente.
Qualcuno può fornire una spiegazione intuitiva di questi concetti?
Non mi sento a mio agio con le informazioni di Fisher, cosa misura e come sono utili. Inoltre, la relazione con il limite di Cramer-Rao non mi è evidente.
Qualcuno può fornire una spiegazione intuitiva di questi concetti?
Risposte:
Qui spiego perché la varianza asintotica dello stimatore della massima verosimiglianza è il limite inferiore di Cramer-Rao. Speriamo che ciò fornisca alcune informazioni sulla pertinenza delle informazioni di Fisher.
L'inferenza statistica procede con l'uso di una funzione di verosimiglianza che costruisci dai dati. La stima puntuale è il valore che massimizza . Lo stimatore è una variabile casuale, ma aiuta a capire che la funzione di probabilità è una "curva casuale".
Qui assumiamo i dati ricavati da una distribuzione , e definiamo la probabilità
Il parametro ha la proprietà di massimizzare il valore della verosimiglianza "vera", . Tuttavia, la funzione di verosimiglianza "osservata" che è costruita dai dati è leggermente "off" dalla verosimiglianza reale. Tuttavia, come puoi immaginare, all'aumentare della dimensione del campione, la probabilità "osservata" converge alla forma della curva di verosimiglianza reale. Lo stesso vale per la derivata della probabilità rispetto al parametro, la funzione score . (Per farla breve, le informazioni di Fisher determinano la velocità con cui la funzione di punteggio osservata converge alla forma della funzione di punteggio reale.
Con un campione di grandi dimensioni, supponiamo che la nostra stima della massima verosimiglianza sia molto vicina a . Zoomiamo in un piccolo quartiere intorno a e modo che la funzione di probabilità sia "localmente quadratica".
Lì, è il punto in cui la funzione punteggio interseca l'origine. In questa piccola regione, trattiamo la funzione di punteggio come una linea , una con pendenza e intercettazione casuale at . Sappiamo dall'equazione per una linea che
o
Dalla coerenza dello stimatore MLE, lo sappiamo
nel limite.
Pertanto, asintoticamente
Si scopre che la pendenza varia molto meno dell'intercetta e, asintoticamente, possiamo considerare la funzione di punteggio come una pendenza costante in un piccolo quartiere intorno a . Quindi possiamo scrivere
Quindi, quali sono i valori di e ? Si scopre che a causa di una meravigliosa coincidenza matematica, sono la stessa quantità (modulo a segno meno), le informazioni di Fisher.
Così,
Un modo per comprendere le informazioni sul pescatore è la seguente definizione:
Le informazioni di Fisher possono essere scritte in questo modo ogni volta che la densità è due volte differenziabile. Se lo spazio campione non dipende dal parametro , allora possiamo usare la formula integrale di Leibniz per mostrare che il primo termine è zero (differenziare entrambi i lati di due volte e ottieni zero), e il secondo termine è la definizione "standard". Prenderò il caso quando il primo termine è zero. I casi in cui non è zero non sono molto utili per comprendere le informazioni di Fisher.
Ora quando si effettua la stima della massima verosimiglianza (inserire qui "condizioni di regolarità") si imposta
E risolvi per . Quindi la seconda derivata dice quanto velocemente sta cambiando il gradiente, e in un certo senso "fino a che punto" può discostarsi dal MLE senza apportare un cambiamento apprezzabile nella parte destra dell'equazione sopra. Un altro modo in cui puoi pensarlo è immaginare una "montagna" disegnata sul foglio: questa è la funzione di verosimiglianza. Risolvere l'equazione MLE sopra ti dice dove si trova il picco di questa montagna in funzione della variabile casuale . Il secondo derivato ti dice quanto è ripida la montagna - il che in un certo senso ti dice quanto sia facile trovare la cima della montagna. Le informazioni di Fisher provengono dall'attesa della ripidezza del picco, e quindi hanno un po 'di "pre-dati" interpretazione.
Una cosa che trovo ancora curiosa è che è quanto sia ripida la verosimiglianza e non quanto sia ripida qualche altra funzione monotonica della verosimiglianza (forse correlata a funzioni di punteggio "appropriate" nella teoria delle decisioni? O forse agli assiomi di coerenza dell'entropia ?).
Le informazioni di Fisher "appaiono" anche in molte analisi asintotiche a causa della cosiddetta approssimazione di Laplace. Ciò in sostanza a causa del fatto che qualsiasi funzione con un singolo massimo "ben arrotondato" aumenta a una potenza sempre più elevata entra in una funzione gaussiana (simile al Teorema del limite centrale, ma leggermente più generale). Quindi quando hai un grande campione sei effettivamente in questa posizione e puoi scrivere:
E quando taylor espandi la probabilità di log circa l'MLE:
Il che equivale alla buona approssimazione di solito di sostituire una somma con un integrale, ma ciò richiede che i dati siano indipendenti. Quindi, per grandi campioni indipendenti (dato ) puoi vedere che le informazioni di Fisher sono quanto è variabile l'MLE, per vari valori dell'MLE.
Questo è l'articolo più intuitivo che ho visto finora:
Il limite è spiegato da un'analogia di Adamo ed Eva nel giardino dell'Eden che lancia una moneta per vedere chi arriva a mangiare il frutto e poi si chiedono quanto sia necessario un campione per raggiungere un certo livello di accuratezza nella loro stima, e poi scoprono questo limite ...
Bella storia con un messaggio profondo sulla realtà davvero.
Sebbene le spiegazioni fornite sopra siano molto interessanti e mi sia piaciuto analizzarle, ritengo che la natura del limite inferiore di Cramer-Rao mi sia stata meglio spiegata da una prospettiva geometrica. Questa intuizione è una sintesi del concetto di ellissi di concentrazione dal capitolo 6 del libro di Scharf sull'elaborazione statistica del segnale .
Prendi in considerazione uno stimatore imparziale di . Inoltre, supponiamo che lo stimatore abbia una distribuzione gaussiana con covarianza . In queste condizioni, la distribuzione di è proporzionale a:
.
Ora pensa ai grafici di contorno di questa distribuzione per . Qualsiasi vincolo del limite superiore sulla probabilità di (cioè, ) si tradurrà in un ellissoide centrato su con raggio fisso . È facile dimostrare che esiste una relazione uno a uno tra il raggio dell'ellissoide e la probabilità desiderata . In altre parole, è vicino a all'interno di un ellissoide determinato dal raggio con probabilità. Questo ellissoide è chiamato ellissoide a concentrazione.
Considerando la descrizione sopra, possiamo dire quanto segue sul CRLB. Tra tutti gli stimatori imparziali, il CRLB rappresenta uno stimatore con covarianza che, per probabilità fissa di "vicinanza" (come definito sopra), ha il più piccolo ellissoide di concentrazione. La figura seguente fornisce un'illustrazione 2D (ispirata all'illustrazione nel libro di Scharf ).