Perché è difficile incorporare l'incertezza negli effetti casuali quando si fanno previsioni da modelli misti?


10

Esistono diversi thread su R-sig-ME su come ottenere intervalli di confidenza per le previsioni usando lme4e nlmein R. Ad esempio qui e qui nel 2010, tra cui alcuni commenti di Dougals Bates, uno degli autori di entrambi i pacchetti. Esito a citarlo alla lettera, per paura che vengano portati fuori dal contesto, ma comunque, un commento che fa è

"Stai combinando parametri e variabili casuali nelle tue previsioni e non sono sicuro di cosa significherebbe valutare la variabilità di tali previsioni. Un bayesiano potrebbe essere in grado di dargli un senso, ma non riesco a capirlo. " https://stat.ethz.ch/pipermail/r-sig-mixed-models/2010q1/003447.html

So che il pacchetto glmm bayesiano MCMCglmmpuò produrre intervalli credibili per le previsioni.

Ultimamente, alla versione di sviluppo di lme4on github è stato dato un predictmetodo, ma è accompagnato dal seguente commento:

"@note Non esiste alcuna opzione per calcolare gli errori standard delle previsioni perché è difficile definire un metodo efficiente che incorpori l'incertezza nei parametri di varianza; per questa attività raccomandiamo \ code {\ link {bootMer}}." https://github.com/lme4/lme4/blob/master/R/predict.R

Quindi, perché è difficile incorporare l'incertezza negli effetti casuali quando si fanno previsioni da modelli misti in un ambiente frequentista?

Risposte:


4

Non sono sicuro del commento del metodo previsto, ma un problema principale è legato alla generazione di misure di varianza facilmente interpretabili, non misure di varianza di per sé. Bates non sta commentando nella prima citazione se puoi farlo, proprio quello che significa.

Prendi un semplice modello multi-livello di un progetto di misure ripetute a due livelli. Supponiamo che tu abbia i seguenti dati in cui ogni riga è un soggetto:

inserisci qui la descrizione dell'immagine

Nel lmermodello potrebbe essere espresso come:

y ~ x + (1|subject)

Stai predicendo il valore y da x come effetto fisso (la differenza tra A e B); e intercettare un effetto casuale **. Osserva attentamente il grafico e nota che sebbene vi sia variabilità nell'effetto x per ciascun soggetto (pendenza di ogni linea) è relativamente piccola rispetto alla variabilità tra i soggetti (l'altezza di ciascuna linea).

Il modello analizza queste due serie di variabilità e ognuna è significativa. È possibile utilizzare gli effetti casuali per prevedere l'altezza delle linee e gli effetti fissi di x per prevedere le pendenze. Potresti anche usare i due combinati per lavorare i nostri singoli valori y. Ma ciò che non puoi fare è davvero dire qualcosa di significativo rispetto al tuo modello quando combini insieme la variabilità di pendenze e altezze delle linee. Devi parlare della variabilità delle tue pendenze e delle altezze delle linee separatamente. Questa è una caratteristica del modello, non una responsabilità.

Avrai una variabilità dell'effetto di x che è relativamente facile da stimare. Potresti dire qualcosa su un intervallo di confidenza attorno a questo. Ma nota che questo intervallo di confidenza avrà una piccola relazione con la previsione di un particolare valore y perché il valore y è influenzato da una combinazione di effetto e varianza del soggetto che è diversa dalla variabilità dell'effetto da solo.

Quando Bates scrive cose come quelle che hai citato, immagino che spesso stia pensando a progetti multilivello molto più complessi a cui questo non si avvicina nemmeno. Ma anche se prendi semplicemente in considerazione questo semplice esempio, ti chiedo quale tipo di significato reale possa essere estratto dalla combinazione di tutte le misure di varianza insieme.

** Ho ignorato l'effetto fisso dell'intercettazione per semplicità e lo ho trattato semplicemente come un effetto casuale. Potresti estrarre conclusioni simili da un modello ancora più semplice con un'intercettazione casuale e fissa, ma penso che sarebbe più difficile da trasmettere. In quel caso, ancora una volta, l'effetto fisso e l'effetto casuale vengono analizzati per una ragione e significano cose diverse e rimettere insieme la loro variabilità per i valori previsti fa sì che la variabilità abbia poco senso rispetto al modello.


Quindi, quello che ti sento dire è che questo si riduce alla stessa vecchia visione di non essere sicuri se vogliamo trattare la varianza del soggetto come errore o dividerlo separatamente e fingere che non esista? È giusto?
Russellpierce,

Non ho mai sentito quella vecchia sega. Non ho mai sentito dire che dovresti far finta che la varianza del soggetto non esista. Ma suppongo sia correlato a questo esempio particolare. Il modello analizza la varianza. Questa caratteristica del processo di modellazione è la modalità di comprensione del modello. Se ricombini nuovamente la varianza, in primo luogo stai sconfiggendo lo scopo del modello. Non sto dicendo di ignorare la varianza del soggetto, solo che l'effetto casuale del soggetto è separato. Potresti voler leggere Blouin & Riopelle (2005) e vedere come cambia il significato di SE quando combini la varianza.
Giovanni,

Forse mi manca qualcosa, ma questo sembra molto simile al fatto che le persone avanti e indietro abbiano quale dimensione dell'effetto è meglio usare per ANOVA in soggetti / misure ripetute e come questi intervalli di confidenza sono meglio tracciati ... ma suppongo che dopo leggi la cosa che mi hai indicato non mi mancherà qualunque cosa mi manchi. :) Grazie.
Russellpierce,

Come ho detto, sono imparentati. Non sapevo che ci fosse un avanti e indietro, mi piacerebbe vedere un riferimento. Il fatto è che i due CI e gli effetti di cui stai parlando significano cose diverse. Quindi, usi quello che trasmette ciò che vuoi dire. E devi farli sembrare sensati. [È difficile argomentare (anche se alcuni lo hanno) che sia sensato mettere un CI che incorpora la varianza del soggetto attorno a una media in un disegno di misure ripetute e usarlo per dire qualcosa sull'effetto di misure ripetute].
John

Non ho visto nulla in letteratura, solo un sacco di mani informali che cercano di indovinare cosa penserà il recensore del giorno.
Russellpierce,

1

Per molto tempo mi sono chiesto della convinzione apparentemente comune che ci sia qualche differenza fondamentale negli effetti fissi e casuali per i modelli di effetti misti (generalmente non lineari). Questa convinzione è ad esempio dichiarata da Bates nella seguente risposta

https://stat.ethz.ch/pipermail/r-sig-mixed-models/2010q1/003447.html

L(x,u)g(x,u)Pg(t)g

Pg(t)=maxx,u{L(x,u) | g(x,u)=t}\eqno(1)

Credo che nessuno litigherebbe con questo. Supponiamo ora di avere una distribuzione di probabilità precedente per te. Quindi direi che la probabilità del profilo per ancora senso, ma dovremmo modificare (1) includendo il precedente.gp(u)g

Pg(t)=maxx,u{L(x,u)p(u) | g(x,u)=t}\eqno(2)
Nota che poiché un parametro con un precedente è esattamente lo stesso di quello che viene definito effetto casuale. Quindi perché molte persone pensano che i parametri degli effetti casuali siano in qualche modo diversi. La differenza che penso deriva dalla solita pratica della stima dei parametri per loro. Ciò che rende gli effetti casuali `` diversi '' è che ce ne sono molti in molti modelli. Di conseguenza per ottenere stime utili per gli effetti fissi (o altri parametri) è necessario trattare gli effetti casuali in modo diverso. Quello che facciamo è integrarli fuori dal modello. Nel modello sopra formeremmo la probabilità dove Now theuF(x)
F(x)=L(x,u)p(u)du
usono andati. Quindi, se tutto ciò che abbiamo è sembra non avere senso parlare della probabilità del profilo per alcune funzioni .F(x)g(x,u)

Quindi per ottenere informazioni sulla funzione non dovremmo integrarci con il parametro . Ma cosa succede nel caso in cui ci siano molti parametri di effetto casuali. Quindi sostengo che dovremmo integrarci su `` la maggior parte '', ma non tutti in un senso che renderò preciso. Per motivare la costruzione, lascia che ci siano effetti casuali . Considera il caso speciale in cui la funzione dipende solo da , e in effetti è la funzione più semplice immaginabile, . Integra gli effetti casuali per ottenere g(x,u)unu=(u1,u2,...,un1,un)g(x,u)ung(x,u)=unu1,u2,...,un1

F(x,un)=L(x,u1,...,un)p(u1,...,un))du1du2...dun1\eqno(4)
come prima possiamo formare la probabilità del profilo Come generalizzare modo che abbia senso per una funzione arbitraria . Si noti che la definizione di in è la stessa di Per vedere questa nota che per il caso semplice , è uguale a
Pg(t)=maxx,un{F(x,un)|un=t}\eqno(3)
(3)g(x,u)F(x,un)(4)
F(x,s)=limϵ01ϵ{(x,un)|sϵ/2<g(x,un)<s+ϵ/2}L(x,u1,...,un)p(u1,...,un))du1du2...dun\eqno(5)
g(x,u)=un(5)
F(x,s)=limϵ01ϵ{(x,un)|sϵ/2<un<s+ϵ/2}F(x,un)dun\eqno(6)

Per una funzione generale formiamo la funzione definita da e calcoliamo la probabilità del profilo g(x,u)F(x,s)(5)

Pg(s)=maxx,u{F(x,s)|g(x,u)=s}\eqno(3)

Questa probabilità del profilo è un concetto ben definito e si regge da solo. Tuttavia, per essere utile nella pratica, bisogna essere in grado di calcolarne il valore, almeno approssimativamente. Credo che per molti modelli la funzione possa essere approssimata abbastanza bene usando una variante dell'approssimazione di Laplace. Definisci con Sia h l'iuta del log della funzione rispetto ai parametri e .F(x,s)x^(s),u^(s)

x^(s),u^(s)=maxx,u{L(x,u)p(u) | g(x,u)=s}
L(x,u)p(u)xu

Gli insiemi di livelli di sono sottomanifold dimensionali di uno spazio dimensionale dove sono presenti effetti fissi e effetti casuali. Dobbiamo integrare una forma su questa varietà in cui tutto è linearizzato in Ciò comporta un po 'di geometria differenziale elementare. Supponiamo che Ri-parametrizzando possiamo supporre che e . Quindi considera la mappa gm+n1n+mmnndu1du2dunx^(s),u^(s)gxn(x^(s),u^(s))0x^(s)=0u^(s)=0

(x1,x2,,xm1,u1,u2,,un)(x1,x2,,xm1,i=1m1gxixii=1nguiuigxm,u1,u2,,un)
dove è usato per denota la derivatvie parziale di rispetto a valutata nel punto massimo. Questa è una mappa lineare dello spazio dimensionale sullo spazio tangente dell'insieme di livelli di . Possiamo usarlo per calcolare l'integrale desiderato. In primo luogo il pullback delle 1 forme sono semplicemente se stesse.gxigxim+n1gdui

Il pullback dell'Assia è la forma quadratica

Ti,j=Hi+m,j+m+guigujgxm2Hm,m\rm for 1<=i,j<=n

Quindi l'integrale può essere calcolato (o approssimato) tramite l'approssimazione di Laplace che è la solita formula che coinvolge il logaritmo del determinante di , che viene calcolato tramite la decomposizione di Cholesky. Il valore dell'approssimazione di Laplace dell'integrale è doveè il determinante. dobbiamo ancora avere a che fare con la larghezza del set di livelli di come Al primo ordine questo ha il valore dove è il vettore di derivate parziali di T

L(x^(s),u^(s))|T|12
||gϵ0ϵ/g(x^(s),u^(s))g(x^(s),u^(s)))g g L ( x ( s ) , u ( s ) ) | - T | 1(gx1,gx2,,gxm,gu1,gu2,,gun) modo da fornire il valore di verosimiglianza sul set di livelli di di Questa è l'approssimazione corretta da utilizzare per il calcolo della probabilità del profilo.g
L(x^(s),u^(s))|T|12g(x^(s),u^(s))
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.