Per molto tempo mi sono chiesto della convinzione apparentemente comune che ci sia qualche differenza fondamentale negli effetti fissi e casuali per i modelli di effetti misti (generalmente non lineari). Questa convinzione è ad esempio dichiarata da Bates nella seguente risposta
https://stat.ethz.ch/pipermail/r-sig-mixed-models/2010q1/003447.html
L(x,u)g(x,u)Pg(t)g
Pg(t)=maxx,u{L(x,u) | g(x,u)=t}\eqno(1)
Credo che nessuno litigherebbe con questo. Supponiamo ora di avere una distribuzione di probabilità precedente per te. Quindi direi che la probabilità del profilo per ancora senso, ma dovremmo modificare (1) includendo il precedente.gp(u)g
Pg(t)=maxx,u{L(x,u)p(u) | g(x,u)=t}\eqno(2)
Nota che poiché un parametro con un precedente è esattamente lo stesso di quello che viene definito effetto casuale. Quindi perché molte persone pensano che i parametri degli effetti casuali siano in qualche modo diversi. La differenza che penso deriva dalla solita pratica della stima dei parametri per loro. Ciò che rende gli effetti casuali `` diversi '' è che ce ne sono molti in molti modelli. Di conseguenza per ottenere stime utili per gli effetti fissi (o altri parametri) è necessario trattare gli effetti casuali in modo diverso. Quello che facciamo è integrarli fuori dal modello. Nel modello sopra formeremmo la probabilità dove
Now the
uF(x)F(x)=∫L(x,u)p(u)du
usono andati. Quindi, se tutto ciò che abbiamo è sembra non avere senso parlare della probabilità del profilo per alcune funzioni .
F(x)g(x,u)
Quindi per ottenere informazioni sulla funzione non dovremmo integrarci con il parametro . Ma cosa succede nel caso in cui ci siano molti parametri di effetto casuali. Quindi sostengo che dovremmo integrarci su `` la maggior parte '', ma non tutti in un senso che renderò preciso. Per motivare la costruzione, lascia che ci siano effetti casuali
. Considera il caso speciale in cui la funzione dipende solo da , e in effetti è la funzione più semplice immaginabile, . Integra gli effetti casuali per ottenere
g(x,u)unu=(u1,u2,...,un−1,un)g(x,u)ung(x,u)=unu1,u2,...,un−1
F(x,un)=∫L(x,u1,...,un)p(u1,...,un))du1du2...dun−1\eqno(4)
come prima possiamo formare la probabilità del profilo
Come generalizzare modo che abbia senso per una funzione arbitraria . Si noti che la definizione di in
è la stessa di
Per vedere questa nota che per il caso semplice ,
è uguale a
Pg(t)=maxx,un{F(x,un)|un=t}\eqno(3)
(3)g(x,u)F(x,un)(4)F(x,s)=limϵ→01ϵ∫{(x,un)|s−ϵ/2<g(x,un)<s+ϵ/2}L(x,u1,...,un)p(u1,...,un))du1du2...dun\eqno(5)
g(x,u)=un(5)F(x,s)=limϵ→01ϵ∫{(x,un)|s−ϵ/2<un<s+ϵ/2}F(x,un)dun\eqno(6)
Per una funzione generale formiamo la funzione
definita da e calcoliamo la probabilità del profilo
g(x,u)F(x,s)(5)
Pg(s)=maxx,u{F(x,s)|g(x,u)=s}\eqno(3)
Questa probabilità del profilo è un concetto ben definito e si regge da solo. Tuttavia, per essere utile nella pratica, bisogna essere in grado di calcolarne il valore, almeno approssimativamente. Credo che per molti modelli la funzione possa essere approssimata abbastanza bene usando una variante dell'approssimazione di Laplace. Definisci con
Sia h l'iuta del log della funzione rispetto ai parametri e .F(x,s)x^(s),u^(s)
x^(s),u^(s)=maxx,u{L(x,u)p(u) | g(x,u)=s}
−L(x,u)p(u)xu
Gli insiemi di livelli di sono sottomanifold dimensionali di uno spazio dimensionale dove sono presenti effetti fissi e effetti casuali. Dobbiamo integrare una forma
su questa varietà in cui tutto è linearizzato in
Ciò comporta un po 'di geometria differenziale elementare. Supponiamo che
Ri-parametrizzando possiamo supporre che e . Quindi considera la mappa
gm+n−1n+mmnndu1∧du2∧…∧dunx^(s),u^(s)gxn(x^(s),u^(s))≠0x^(s)=0u^(s)=0
(x1,x2,…,xm−1,u1,u2,…,un)→(x1,x2,…,xm−1,−∑m−1i=1gxixi−∑ni=1guiuigxm,u1,u2,…,un)
dove è usato per denota la derivatvie parziale di rispetto a
valutata nel punto massimo. Questa è una mappa lineare dello spazio dimensionale sullo spazio tangente dell'insieme di livelli di . Possiamo usarlo per calcolare l'integrale desiderato. In primo luogo il pullback delle 1 forme sono semplicemente se stesse.
gxigxim+n−1gdui
Il pullback dell'Assia è la forma quadratica
Ti,j=Hi+m,j+m+guigujgxm2Hm,m\rm for 1<=i,j<=n
Quindi l'integrale può essere calcolato (o approssimato) tramite l'approssimazione di Laplace che è la solita formula che coinvolge il logaritmo del determinante di , che viene calcolato tramite la decomposizione di Cholesky. Il valore dell'approssimazione di Laplace dell'integrale è
doveè il determinante. dobbiamo ancora avere a che fare con la larghezza del set di livelli di come
Al primo ordine questo ha il valore
dove è il vettore di derivate parziali di
T
L(x^(s),u^(s))|−T|12
|⋅|gϵ→0ϵ/∥∇g(x^(s),u^(s))∥∇g(x^(s),u^(s)))g g L ( x ( s ) , u ( s ) ) | - T | 1(gx1,gx2,…,gxm,gu1,gu2,…,gun)
modo da fornire il valore di verosimiglianza sul set di livelli di di
Questa è l'approssimazione corretta da utilizzare per il calcolo della probabilità del profilo.
gL(x^(s),u^(s))|−T|12∥∇g(x^(s),u^(s))∥