Non mi sento a mio agio con le informazioni di Fisher, cosa misura e come sono utili. Inoltre, la relazione con il limite di Cramer-Rao non mi è evidente. Qualcuno può fornire una spiegazione intuitiva di questi concetti?
Ok, questa è una domanda abbastanza semplice, ma sono un po 'confuso. Nella mia tesi scrivo: Gli errori standard possono essere trovati calcolando l'inverso della radice quadrata degli elementi diagonali della matrice (osservata) di Fisher Information: Dal momento che il comando ottimizzazione minimizza R-logLil (osservata) a matrice Fisher informazioni può …
Supponiamo di avere una variabile casuale X∼f(x|θ)X∼f(x|θ)X \sim f(x|\theta) . Se θ0θ0\theta_0 fosse il parametro vero, la funzione di verosimiglianza dovrebbe essere massimizzata e la derivata uguale a zero. Questo è il principio alla base dello stimatore della massima verosimiglianza. A quanto ho capito, le informazioni di Fisher sono definite …
Qualcuno può provare la seguente connessione tra la metrica di informazioni di Fisher e la relativa entropia (o divergenza di KL) in modo rigorosamente matematico rigoroso? D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(∥da∥3)D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(‖da‖3)D( p(\cdot , a+da) \parallel p(\cdot,a) ) =\frac{1}{2} g_{i,j} \, da^i \, da^j + (O( \|da\|^3) dove a=(a1,…,an),da=(da1,…,dan)a=(a1,…,an),da=(da1,…,dan)a=(a^1,\dots, a^n), da=(da^1,\dots,da^n) , gi,j=∫∂i(logp(x;a))∂j(logp(x;a)) p(x;a) dxgi,j=∫∂i(logp(x;a))∂j(logp(x;a)) …
Dato il seguente modello gerarchico, e, dove è una distribuzione normale. C'è un modo per ottenere un'espressione esatta per le informazioni di Fisher sulla distribuzione marginale di data . Cioè, qual è l'informazione Fisher di: Posso ottenere un'espressione per la distribuzione marginale di dato , ma differenziando wRT e poi …
Sto ripubblicando una "risposta" a una domanda che avevo posto due settimane fa qui: Perché è utile il Jeffreys? Era davvero una domanda (e non avevo nemmeno il diritto di pubblicare commenti in quel momento), quindi spero sia giusto farlo: Nel link sopra si discute che l'interessante caratteristica di Jeffreys …
Nell'impostazione della probabilità massima standard (tra il campione da una distribuzione con densità )) e nel caso di un modello correttamente specificato, il Fisher le informazioni sono fornite daY1,…,YnY1,…,YnY_{1}, \ldots, Y_{n}fy(y|θ0fy(y|θ0f_{y}(y|\theta_{0} I(θ)=−Eθ0[∂2θ2lnfy(θ)]I(θ)=−Eθ0[∂2θ2lnfy(θ)]I(\theta) = -\mathbb{E}_{\theta_{0}}\left[\frac{\partial^{2}}{\theta^{2}}\ln f_{y}(\theta) \right] dove viene presa l'aspettativa rispetto alla densità reale che ha generato i dati. Ho …
Sto cercando di dimostrare che la matrice di informazioni osservate valutata allo stimatore della massima verosimiglianza debolmente coerente (MLE) è uno stimatore debolmente coerente della matrice di informazioni attesa. Questo è un risultato ampiamente citato ma nessuno fornisce un riferimento o una prova (ho esaurito penso che le prime 20 …
I test di permutazione (chiamati anche test di randomizzazione, test di ri-randomizzazione o test esatto) sono molto utili e sono utili quando l'assunzione della distribuzione normale richiesta da per esempio t-testnon è soddisfatta e quando la trasformazione dei valori per classifica del test non parametrici come Mann-Whitney-U-testquesto porterebbero alla perdita …
Diversi libri di testo citano condizioni diverse per l'esistenza di una matrice di informazioni Fisher. Diverse condizioni di questo tipo sono elencate di seguito, ognuna delle quali appare in alcune, ma non in tutte, le definizioni di "matrice di informazioni Fisher". Esiste un insieme standard e minimo di condizioni? Delle …
(Ho pubblicato una domanda simile su math.se. ) Nella geometria dell'informazione, il determinante della matrice di informazioni di Fisher è una forma di volume naturale su una varietà statistica, quindi ha una buona interpretazione geometrica. Il fatto che appaia nella definizione di un Jeffreys precedente, per esempio, è legato alla …
Considera una variabile casuale Bernoulli con parametro (probabilità di successo). La funzione di verosimiglianza e le informazioni di Fisher (una matrice ) sono:θ 1 × 1X∈{0,1}X∈{0,1}X\in\{0,1\}θθ\theta1×11×11 \times 1 L1(θ;X)I1(θ)=p(X|θ)=θX(1−θ)1−X=detI1(θ)=1θ(1−θ)L1(θ;X)=p(X|θ)=θX(1−θ)1−XI1(θ)=detI1(θ)=1θ(1−θ) \begin{align} \mathcal{L}_1(\theta;X) &= p(\left.X\right|\theta) = \theta^{X}(1-\theta)^{1-X} \\ \mathcal{I}_1(\theta) &= \det \mathcal{I}_1(\theta) = \frac{1}{\theta(1-\theta)} \end{align} Consideriamo ora una versione "sovraparametrizzata" con due …
Esempi: ho una frase nella descrizione del lavoro: "Ingegnere senior Java nel Regno Unito". Voglio usare un modello di apprendimento profondo per prevederlo in 2 categorie: English e IT jobs. Se uso il modello di classificazione tradizionale, posso solo prevedere 1 etichetta con la softmaxfunzione all'ultimo livello. Quindi, posso usare …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.