Spiegazione intuitiva delle informazioni Fisher e del limite di Cramer-Rao

59

Non mi sento a mio agio con le informazioni di Fisher, cosa misura e come sono utili. Inoltre, la relazione con il limite di Cramer-Rao non mi è evidente.

Qualcuno può fornire una spiegazione intuitiva di questi concetti?

estimation intuition fisher-information

— Infinito
fonte

1

C'è qualcosa nell'articolo di Wikipedia che sta causando problemi? Misura la quantità di informazioni che una variabile casuale osservabile porta su un parametro sconosciuto da cui dipende la probabilità di , e il suo inverso è il limite inferiore di Cramer-Rao sulla varianza di uno stimatore imparziale di .

X

$X$

θ

$\theta$

X

$X$

θ

$\theta$

— Henry,

2

Lo capisco, ma non mi sento davvero a mio agio con esso. Ad esempio, cosa significa esattamente "quantità di informazioni" qui. Perché l'aspettativa negativa del quadrato della derivata parziale della densità misura questa informazione? Da dove viene l'espressione ecc. Ecco perché spero di ottenere qualche intuizione a riguardo.

— Infinito

@Infinità: il punteggio è il tasso proporzionale di variazione nella probabilità dei dati osservati quando il parametro cambia, e quindi utile per l'inferenza. Il Fisher informa la varianza del punteggio (con significato zero). Così matematicamente è l'attesa del quadrato della prima derivata parziale del logaritmo della densità e così è la negazione dell'aspettativa della seconda derivata parziale del logaritmo della densità.

— Henry,

32

Qui spiego perché la varianza asintotica dello stimatore della massima verosimiglianza è il limite inferiore di Cramer-Rao. Speriamo che ciò fornisca alcune informazioni sulla pertinenza delle informazioni di Fisher.

L'inferenza statistica procede con l'uso di una funzione di verosimiglianza che costruisci dai dati. La stima puntuale è il valore che massimizza . Lo stimatore è una variabile casuale, ma aiuta a capire che la funzione di probabilità è una "curva casuale". $\mathcal{L}(\theta)$ $\hat{\theta}$ $\mathcal{L}(\theta)$ $\hat{\theta}$ $\mathcal{L}(\theta)$

Qui assumiamo i dati ricavati da una distribuzione , e definiamo la probabilità $f(x|\theta)$

L (θ) = \frac{1}{n} \sum_{i = 1}^{n} \log f (x_{i} | θ)

$\mathcal{L}(\theta) = \frac{1}{n}\sum_{i=1}^n \log f(x_i|\theta)$

Il parametro ha la proprietà di massimizzare il valore della verosimiglianza "vera", . Tuttavia, la funzione di verosimiglianza "osservata" che è costruita dai dati è leggermente "off" dalla verosimiglianza reale. Tuttavia, come puoi immaginare, all'aumentare della dimensione del campione, la probabilità "osservata" converge alla forma della curva di verosimiglianza reale. Lo stesso vale per la derivata della probabilità rispetto al parametro, la funzione score . (Per farla breve, le informazioni di Fisher determinano la velocità con cui la funzione di punteggio osservata converge alla forma della funzione di punteggio reale. $\theta$ $\mathbb{E}\mathcal{L}(\theta)$ $\mathcal{L}(\theta)$ $\partial \mathcal{L}/\partial \theta$

Con un campione di grandi dimensioni, supponiamo che la nostra stima della massima verosimiglianza sia molto vicina a . Zoomiamo in un piccolo quartiere intorno a e modo che la funzione di probabilità sia "localmente quadratica". $\hat{\theta}$ $\theta$ $\theta$ $\hat{\theta}$

Lì, è il punto in cui la funzione punteggio interseca l'origine. In questa piccola regione, trattiamo la funzione di punteggio come una linea , una con pendenza e intercettazione casuale at . Sappiamo dall'equazione per una linea che $\hat{\theta}$ $\partial \mathcal{L}/\partial \theta$ $a$ $b$ $\theta$

a (\hat{θ} - θ) + b = 0

$a(\hat{\theta} - \theta) + b = 0$

o

\hat{θ} = θ - b / a .

$\hat{\theta} = \theta - b/a .$

Dalla coerenza dello stimatore MLE, lo sappiamo

E (\hat{θ}) = θ

$\mathbb{E}(\hat{\theta}) = \theta$

nel limite.

Pertanto, asintoticamente

n V a r (\hat{θ}) = n V a r (b / a)

$nVar(\hat{\theta}) = nVar(b/a)$

Si scopre che la pendenza varia molto meno dell'intercetta e, asintoticamente, possiamo considerare la funzione di punteggio come una pendenza costante in un piccolo quartiere intorno a . Quindi possiamo scrivere $\theta$

n V a r (\hat{θ}) = \frac{1}{a^{2}} n V a r (b)

$nVar(\hat{\theta}) = \frac{1}{a^2}nVar(b)$

Quindi, quali sono i valori di e ? Si scopre che a causa di una meravigliosa coincidenza matematica, sono la stessa quantità (modulo a segno meno), le informazioni di Fisher. $a$ $nVar(b)$

- a = E [- \frac{\partial^{2} L}{\partial θ^{2}}] = I (θ)

$-a = \mathbb{E}\left[-\frac{\partial^2 \mathcal{L}}{\partial \theta^2}\right] = I(\theta)$

n V a r (b) = n V a r [\frac{\partial L}{\partial θ}] = I (θ)

$nVar(b) = nVar\left[\frac{\partial \mathcal{L}}{\partial \theta}\right] = I(\theta)$

Così,

n V a r (\hat{θ}) = \frac{1}{a^{2}} n V a r (b) = (1 / I (θ)^{2}) I (θ) = 1 / I (θ)

$nVar(\hat{\theta}) = \frac{1}{a^2}nVar(b) = (1/I(\theta)^2)I(\theta) = 1/I(\theta)$ asintoticamente : il limite inferiore di Cramer-Rao. (Mostrare che è il limite inferiore della varianza di uno stimatore imparziale è un'altra questione.)

1 / I (θ)

$1/I(\theta)$

— charles.y.zheng
fonte

2

Esiste una rappresentazione grafica della parte in cui dici che la funzione di probabilità è localmente quadratica?

— Quirik,

@quirik, considera l'utilizzo dell'espansione Taylor del secondo ordine attorno a theta_hat.

— idnavid

@ charles.y.zheng Questa è una delle spiegazioni più interessanti della scena.

— idnavid

13

Un modo per comprendere le informazioni sul pescatore è la seguente definizione:

I (θ) = \int_{X} \frac{\partial^{2} f (x | θ)}{\partial θ^{2}} d x - \int_{X} f (x | θ) \frac{\partial^{2}}{\partial θ^{2}} \log [f (x | θ)] d x

$I(\theta)=\int_{\cal{X}} \frac{\partial^{2}f(x|\theta)}{\partial \theta^{2}}dx-\int_{\cal{X}} f(x|\theta)\frac{\partial^{2}}{\partial \theta^{2}}\log[f(x|\theta)]dx$

Le informazioni di Fisher possono essere scritte in questo modo ogni volta che la densità è due volte differenziabile. Se lo spazio campione non dipende dal parametro , allora possiamo usare la formula integrale di Leibniz per mostrare che il primo termine è zero (differenziare entrambi i lati di due volte e ottieni zero), e il secondo termine è la definizione "standard". Prenderò il caso quando il primo termine è zero. I casi in cui non è zero non sono molto utili per comprendere le informazioni di Fisher. $f(x|\theta)$ $\cal{X}$ $\theta$ $\int_{\cal{X}} f(x|\theta)dx=1$

Ora quando si effettua la stima della massima verosimiglianza (inserire qui "condizioni di regolarità") si imposta

\frac{\partial}{\partial θ} \log [f (x | θ)] = 0

$\frac{\partial}{\partial \theta}\log[f(x|\theta)]=0$

E risolvi per . Quindi la seconda derivata dice quanto velocemente sta cambiando il gradiente, e in un certo senso "fino a che punto" può discostarsi dal MLE senza apportare un cambiamento apprezzabile nella parte destra dell'equazione sopra. Un altro modo in cui puoi pensarlo è immaginare una "montagna" disegnata sul foglio: questa è la funzione di verosimiglianza. Risolvere l'equazione MLE sopra ti dice dove si trova il picco di questa montagna in funzione della variabile casuale . Il secondo derivato ti dice quanto è ripida la montagna - il che in un certo senso ti dice quanto sia facile trovare la cima della montagna. Le informazioni di Fisher provengono dall'attesa della ripidezza del picco, e quindi hanno un po 'di "pre-dati" interpretazione. $\theta$ $\theta$ $x$

Una cosa che trovo ancora curiosa è che è quanto sia ripida la verosimiglianza e non quanto sia ripida qualche altra funzione monotonica della verosimiglianza (forse correlata a funzioni di punteggio "appropriate" nella teoria delle decisioni? O forse agli assiomi di coerenza dell'entropia ?).

Le informazioni di Fisher "appaiono" anche in molte analisi asintotiche a causa della cosiddetta approssimazione di Laplace. Ciò in sostanza a causa del fatto che qualsiasi funzione con un singolo massimo "ben arrotondato" aumenta a una potenza sempre più elevata entra in una funzione gaussiana (simile al Teorema del limite centrale, ma leggermente più generale). Quindi quando hai un grande campione sei effettivamente in questa posizione e puoi scrivere: $\exp(-ax^{2})$

f (d a t a | θ) = \exp (\log [f (d a t a | θ)])

$f(data|\theta)=\exp(\log[f(data|\theta)])$

E quando taylor espandi la probabilità di log circa l'MLE:

f (d a t a | θ) \approx [f (d a t a | θ)]_{θ = θ_{M L E}} \exp (- \frac{1}{2} {[- \frac{\partial^{2}}{\partial θ^{2}} \log [f (d a t a | θ)]]}_{θ = θ_{M L E}} (θ - θ_{M L E})^{2})

$f(data|\theta)\approx [f(data|\theta)]_{\theta=\theta_{MLE}}\exp\left(-\frac{1}{2}\left[-\frac{\partial^{2}}{\partial \theta^{2}}\log[f(data|\theta)]\right]_{\theta=\theta_{MLE}}(\theta-\theta_{MLE})^{2}\right)$ e si presenta quella seconda derivata della verosimiglianza (ma in forma "osservata" anziché "attesa"). Ciò che di solito viene fatto qui è di apportare ulteriori approssimazioni:

- \frac{\partial^{2}}{\partial θ^{2}} \log [f (d a t a | θ)] = n (- \frac{1}{n} \sum_{i = 1}^{n} \frac{\partial^{2}}{\partial θ^{2}} \log [f (x_{i} | θ)]) \approx n I (θ)

$-\frac{\partial^{2}}{\partial \theta^{2}}\log[f(data|\theta)]=n\left(-\frac{1}{n}\sum_{i=1}^{n}\frac{\partial^{2}}{\partial \theta^{2}}\log[f(x_{i}|\theta)]\right)\approx nI(\theta)$

Il che equivale alla buona approssimazione di solito di sostituire una somma con un integrale, ma ciò richiede che i dati siano indipendenti. Quindi, per grandi campioni indipendenti (dato ) puoi vedere che le informazioni di Fisher sono quanto è variabile l'MLE, per vari valori dell'MLE. $\theta$

— probabilityislogic
fonte

1

"Una cosa che trovo ancora curiosa è che è quanto sia ripida la probabilità di log e non quanto sia ripida qualche altra funzione monotonica della probabilità." Sono sicuro che potresti ricavare analoghi per le informazioni di Fisher in termini di altre trasformazioni della probabilità, ma poi non otterrai un'espressione altrettanto chiara per il limite inferiore di Cramer-Rao.

— charles.y.zheng,

2

Questo è l'articolo più intuitivo che ho visto finora:

Il limite inferiore di Cramér-Rao sulla varianza: il principio di incertezza di Adam ed Eve di Michael R. Powers, Journal of Risk Finance, vol. 7, n. 3, 2006

Il limite è spiegato da un'analogia di Adamo ed Eva nel giardino dell'Eden che lancia una moneta per vedere chi arriva a mangiare il frutto e poi si chiedono quanto sia necessario un campione per raggiungere un certo livello di accuratezza nella loro stima, e poi scoprono questo limite ...

Bella storia con un messaggio profondo sulla realtà davvero.

— vonjd
fonte

6

Grazie per aver pubblicato questo riferimento. Alla fine, però, sono rimasto deluso dal constatare che in realtà non spiega il CRLB. Lo afferma semplicemente, senza fornire alcuna comprensione del perché sia vero, e fornisce solo un linguaggio evocativo ma alla fine privo di significato, come "spremere informazioni", nel tentativo di spiegarlo.

— whuber

@whuber: Abbastanza giusto, sono d'accordo che potrebbe approfondire e il finale è un po 'brusco. Tuttavia, ciò che mi piace dell'articolo è che sembra davvero naturale che ci sia una connessione tra dimensione del campione, media del campione, legge dei grandi numeri e che la varianza del campione può essere ridotta solo fino a un certo punto (cioè che ci deve essere alcuni vincolati , che risulta essere quello sopra menzionato). Inoltre chiarisce che questo non è un risultato matematico sfuggente, ma in realtà un'affermazione sui limiti di acquisizione della conoscenza della realtà.

— vonjd,

2

Sebbene le spiegazioni fornite sopra siano molto interessanti e mi sia piaciuto analizzarle, ritengo che la natura del limite inferiore di Cramer-Rao mi sia stata meglio spiegata da una prospettiva geometrica. Questa intuizione è una sintesi del concetto di ellissi di concentrazione dal capitolo 6 del libro di Scharf sull'elaborazione statistica del segnale .

Prendi in considerazione uno stimatore imparziale di . Inoltre, supponiamo che lo stimatore abbia una distribuzione gaussiana con covarianza . In queste condizioni, la distribuzione di è proporzionale a: ${\boldsymbol\theta}$ $\hat{\boldsymbol\theta}$ ${\boldsymbol\Sigma}$ $\hat{\boldsymbol\theta}$

$f(\hat{\boldsymbol\theta})\propto \exp(-\frac{1}{2}(\hat{\boldsymbol\theta}-{\boldsymbol\theta})^T{\boldsymbol\Sigma}^{-1}(\hat{\boldsymbol\theta}-{\boldsymbol\theta}))$ .

Ora pensa ai grafici di contorno di questa distribuzione per . Qualsiasi vincolo del limite superiore sulla probabilità di (cioè, ) si tradurrà in un ellissoide centrato su con raggio fisso . È facile dimostrare che esiste una relazione uno a uno tra il raggio dell'ellissoide e la probabilità desiderata . In altre parole, è vicino a all'interno di un ellissoide determinato dal raggio con probabilità ${\boldsymbol\theta}\in R^2$ $\hat{\boldsymbol\theta}$ $\int f(\hat{\boldsymbol\theta})d{\boldsymbol\theta} \le P_r$ ${\boldsymbol\theta}$ $r$ $r$ $P_r$ $\hat{\boldsymbol\theta}$ ${\boldsymbol\theta}$ $r$ $P_r$ . Questo ellissoide è chiamato ellissoide a concentrazione.

Considerando la descrizione sopra, possiamo dire quanto segue sul CRLB. Tra tutti gli stimatori imparziali, il CRLB rappresenta uno stimatore con covarianza che, per probabilità fissa di "vicinanza" (come definito sopra), ha il più piccolo ellissoide di concentrazione. La figura seguente fornisce un'illustrazione 2D (ispirata all'illustrazione nel libro di Scharf ). $\hat{\boldsymbol\theta}_{crlb}$ $\boldsymbol\Sigma_{crlb}$ $P_r$

— idnavid
fonte

2

Bene, questo è dannatamente bello, specialmente l'immagine, ha bisogno di più voti.

— Astrid,