Determinante della matrice di informazioni Fisher per un modello sovra parametrizzato


10

Considera una variabile casuale Bernoulli con parametro (probabilità di successo). La funzione di verosimiglianza e le informazioni di Fisher (una matrice ) sono:θ 1 × 1X{0,1}θ1×1

L1(θ;X)=p(X|θ)=θX(1θ)1XI1(θ)=detI1(θ)=1θ(1θ)

Consideriamo ora una versione "sovraparametrizzata" con due parametri: la probabilità di successo θ1 e la probabilità di fallimento θ0 . (Si noti che θ1+θ0=1 e questo vincolo implica che uno dei parametri è ridondante.) In questo caso la funzione di verosimiglianza e la matrice di informazioni Fisher (FIM) sono:

L2(θ1,θ0;X)=p(X|θ1,θ0)=θ1Xθ01XI2(θ1,θ0)=(1θ1001θ0)detI2(θ)=1θ1θ0=1θ1(1θ1)

Si noti che i determinanti di questi due FIM sono identici. Inoltre, questa proprietà si estende al caso più generale di modelli categorici (ovvero più di due stati). Sembra inoltre estendersi ai modelli log-lineari con vari sottoinsiemi di parametri vincolati a zero; in questo caso, il parametro "ridondante" aggiuntivo corrisponde alla funzione di partizione del registro e l'equivalenza dei due determinanti FIM può essere mostrata in base al complemento Schur del FIM più grande. (In realtà, per i modelli log-linear il FIM più piccolo è solo il complemento Schur del FIM più grande.)

Qualcuno può spiegare se questa proprietà si estende a un set più ampio di modelli parametrici (ad esempio a tutte le famiglie esponenziali), consentendo l'opzione di derivare i determinanti FIM sulla base di un tale set di parametri "esteso"? Vale a dire qualsiasi dato modello statistico con parametri che giacciono su una varietà dimensionale incorporata in uno spazio -dimensionale. Ora, se estendiamo l'insieme di parametri per includere un'altra dimensione (che è totalmente vincolata in base agli altri) e calcoliamo i parametri basati su FIM , avremo sempre lo stesso determinante di quello basato sull'originale parametri (indipendenti)? Inoltre, in che modo sono collegati questi due FIM?nn(n+1)(n+1)n

Il motivo per cui faccio questa domanda è che il FIM con il parametro extra appare spesso più semplice. Il mio primo pensiero è che questo non dovrebbe funzionare in generale. La FIM comporta il calcolo di derivate parziali della probabilità di log per ogni parametro. Questi derivati ​​parziali presumono che, mentre il parametro in questione cambia, tutti gli altri parametri rimangono costanti, il che non è vero una volta coinvolto il parametro extra (vincolato). In questo caso, mi sembra che le derivate parziali non siano più valide perché non possiamo assumere che gli altri parametri siano costanti; tuttavia, devo ancora trovare prove che questo sia effettivamente un problema. (Se i derivati ​​parziali sono problematici nei casi con parametri dipendenti, sono i derivati ​​totali(n+1)×(n+1)necessario invece? Non ho ancora visto un esempio di calcolo del FIM con derivati ​​totali, ma forse questa è la soluzione ...)

L'unico esempio che ho trovato online che calcola il FIM sulla base di un set di parametri "esteso" è il seguente: queste note contengono un esempio per la distribuzione categoriale, calcolando le derivate parziali richieste come al solito (cioè come se ogni parametro fosse indipendente , anche se è presente un vincolo tra i parametri).


1
Buona domanda! Penso che la specifica a due parametri della variabile casuale di Bernoulli sia un esempio piuttosto sfortunato, perché senza il vincolo, non è più destinato ad essere densità. Puoi riprodurre la tua osservazione per la famiglia esponenziale curva, per esempio? p(X|θ1,θ0)=θ1Xθ01X
Khashaa,

@Khashaa Suppongo che il vincolo applichi nel caso di due parametri (quello che hai menzionato), quindi la funzione di probabilità sarà comunque una densità valida. Inoltre, sì, posso riprodurre questa osservazione, ad esempio per i modelli log-lineari con vari sottoinsiemi di parametri vincolati a zero; in questo caso, il parametro "ridondante" corrisponde alla funzione di partizione del registro. θ1+θ2=1
Tyler Streeter,

1
Che ne dici di ? N(μ,μ2)
Khashaa,

Risposte:


4

Per normale , la matrice di informazioni è Per normale curvaQuindi, la tua osservazione che i determinanti sono uguali non è universale, ma non è l'intera storia.XN(μ,σ2)

I1=(1σ20012σ4)
XN(μ,μ2)
I2=3μ2.

In generale, se è la matrice di informazioni sotto la riparametrizzazione allora non è difficile vedere che la matrice di informazioni per i parametri originali è dove è il giacobino della trasformazione .Ig

g(θ)=(g1(θ),...,gk(θ)),
I(θ)=GIg(g(θ))G
Gg=g(θ)

Per esempio Bernoulli e . Quindi, il giacobino è e quindi (θ0,θ1)=(p,1p)g(p)=(p,1p)(1,1)

I(p)=(11)(1p0011p)(11)=1p(1p)

Per un esempio normale curvo,

I2=(12μ)(1μ20012μ4)(12μ)=3μ2.

Penso che ora puoi facilmente mettere in relazione i determinanti.

Seguito dopo il commento

Se ti ho capito correttamente, il FIM è valido fintanto che estendi i parametri in modo significativo: la probabilità sotto nuova parametrizzazione dovrebbe essere una densità valida. Quindi, ho chiamato l'esempio di Bernoulli sfortunato.

Penso che il link che hai fornito abbia un grave difetto nella derivazione del FIM per variabili categoriche, dato che abbiamo ed . L'aspettativa dell'Assia negativa dà , ma non per la covarianza dei vettori dei punteggi. Se si trascurano i vincoli, l'uguaglianza della matrice di informazioni non regge. E(xi2)=θi(1θi)θiE(xixj)=θiθj0diag{1/θi}


Grazie per aver menzionato l'approccio di trasformazione giacobino e per gli esempi semplici e chiari. Puoi (o chiunque altro) commentare il seguente problema che mi riguarda ancora: quando estendiamo l'insieme di parametri di una dimensione, come stiamo facendo qui, introduciamo un vincolo tra i parametri in modo tale che qualsiasi derivata parziale (come richiesto da il FIM) dovrebbe essere non valido perché ora, quando variamo un parametro, gli altri non sono più costanti. Quindi il FIM è valido anche per il set esteso di parametri, dato che i derivati ​​parziali non sono validi a causa del vincolo aggiuntivo?
Tyler Streeter,

@TylerStreeter Ho aggiornato la mia risposta per risolvere il problema.
Khashaa,

3

Sembra che il risultato valga per un tipo specifico di relazione tra i parametri.

Senza rivendicare la piena generalità per i risultati seguenti, mi attengo al caso "uno o due parametri". Indica l'equazione implicita che esprime la relazione che deve contenere tra i due parametri. Quindi la verosimiglianza "corretta estesa", "a due parametri" (non ciò che l'OP calcola - arriveremo lì)g(θ0,θ1)=0

Le=L(θ0,θ1)+λg(θ0,θ1)
è equivalente alla reale probabilità , poiché , ( è un moltiplicatore) e possiamo considerare i due parametri come indipendenti, mentre differenziamo.Lg(θ0,θ1)=0λ

Utilizzando i pedici per indicare le derivate rispetto ai parametri (un primo pedale derivato, due pedici secondo derivato), il determinante dell'Assia della corretta probabilità logaritmica estesa sarà

(1)DH(Le)=[L00+λg00][L11+λg11][L01+λg01]2=DH(L)

Cosa sta facendo invece l'OP?

Considera la probabilità errata "ignorando" la relazione tra i due parametri e senza tener conto del vincolo . Procede quindi con la differenziazione e ottieneL(θ0,θ1)g(θ0,θ1)

(2)DH(L)=L00L11[L01]2

È evidente che non è generalmente uguale a .(2)(1)

Ma se , allorag00=g11=g00=0

(1)DH(Le)=L00L11[L01]2=DH(L)=DH(L)

Quindi se la relazione tra il parametro attuale e il parametro ridondante è tale che le seconde derivate parziali della funzione implicita che le collega sono tutte zero , allora l'approccio che è fondamentalmente sbagliato, finisce per essere "corretto".

Per il caso Bernoulli, abbiamo davvero

g(θ0,θ1)=θ0+θ11g00=g11=g01=0

ADDENDUM
Per rispondere alla domanda @Khashaa e mostrare la meccanica qui, consideriamo una probabilità specificata con un parametro ridondante, ma anche sotto un vincolo che collega il parametro ridondante con quello vero. Quello che facciamo con le probabilità logaritmiche è massimizzarli, quindi qui abbiamo un caso di massimizzazione vincolata. Supponiamo un campione di dimensione ,:n

maxLn(θ0,θ1)=lnθ0i=1nxi+(ni=1nxi)lnθ1,s.t.θ1=1θ0

Questo problema ha un Langrangean (quello che informalmente ho chiamato "corretta probabilità estesa" sopra),

Le=lnθ0i=1nxi+(ni=1nxi)lnθ1+λ(θ11+θ0)

Le condizioni del primo ordine per un massimo sono

i=1nxiθ0+λ=0,ni=1nxiθ1+λ0=0

per il quale otteniamo la relazione

i=1nxiθ0=ni=1nxiθ1θ1i=1nxi=(ni=1nxi)θ0

utilizzando il vincolo in base al quale il sopra sono validi, otteniamoθ1=1θ0

(1θ0)i=1nxi=(ni=1nxi)θ0

i=1nxi=nθ0θ^0=1ni=1nxi

come dovremmo.

Inoltre, poiché il vincolo è lineare in tutti i parametri, le sue seconde derivate saranno zero. Ciò si riflette nel fatto che nei primi derivati ​​del lagrangiano, il moltiplicatore "sta da solo" e verrà eliminato quando prenderemo i secondi derivati ​​del lagrangiano. Il che a sua volta ci condurrà a un Assia il cui determinante sarà uguale alla seconda derivata (unidimensionale) della verosimiglianza logaritmica a un parametro, dopo aver imposto anche il vincolo (che è ciò che fa l'OP). Quindi prendere il negativo del valore atteso in entrambi i casi, non modifica questa equivalenza matematica e arriviamo alla relazione "Informazioni Fisher unidimensionali = determinante delle informazioni Fisher bidimensionali". Adessoλdato che il vincolo è lineare in tutti i parametri, l'OP ottiene lo stesso risultato (al secondo livello di derivata) senza introdurre il vincolo con un moltiplicatore nella funzione da massimizzare, perché al secondo livello di derivata la presenza / effetto del il vincolo scompare in tal caso.

Tutto ciò ha a che fare con il calcolo, non con concetti statistici.


Non riesco a seguire la tua logica. Potresti spiegare perché simile a Lagrangean è considerata come "corretta estensione", "verosimiglianza a due parametri"? Inoltre, l'Assia è completamente misteriosa per me. Stai calcolando la matrice di informazioni osservate? Le
Khashaa,

@Khashaa È terminologia consolidata che l '"Assia" è la matrice dei secondi derivati ​​di una funzione multivariata.
Alecos Papadopoulos,

Sarebbe utile se qui i downvoter avessero pubblicato una risposta - perché esiste l'esempio specifico del PO - e richiede una spiegazione.
Alecos Papadopoulos,

Scusa, se la mia domanda non era chiara. La mia domanda era su come hai collegato l'Assia alla matrice delle informazioni, dal momento che non vedevo alcuna aspettativa operarci su di essa e il risultato sembrava una matrice di informazioni osservata. Inoltre, puoi spiegare perché la responsabilità corretta? Immagino che tu stia utilizzando un metodo di principio per valutare la probabilità limitata, ma non capisco come funzioni. Le
Khashaa,

@Khashaa Ho aggiunto un'esposizione usando l'esempio del PO.
Alecos Papadopoulos,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.