Partizionamento della varianza e cambiamenti longitudinali in correlazione con i dati binari


14

Sto analizzando i dati su 300.000 alunni in 175 scuole con un modello logistico lineare a effetti misti (intercettazioni casuali). Ogni alunno si verifica esattamente una volta e i dati durano 6 anni.

  1. Come dividere la varianza tra la scuola e il livello degli alunni, in modo simile al VPC / ICC per risultati continui? Ho visto questo articolo che propone 4 metodi, di cui A e B mi sembrano interessanti, ma vorrei sapere quali vantaggi / svantaggi potrebbero esserci nell'utilizzare uno di questi, e ovviamente se ci sono altri modi per fare esso.

  2. Come posso confrontare la varianza residua a livello di scuola di anno in anno (o in qualsiasi altro periodo di tempo)? Finora l'ho fatto dividendo i dati per anno ed eseguendo il modello per ogni anno di dati, ma penso che questo sia imperfetto perché: i) non c'è una ragione ovvia per cui dovrei essere diviso per anno ; e ii) poiché le stime degli effetti fissi sono diverse per ogni anno, il confronto degli effetti casuali anno per anno potrebbe non avere senso (questa è solo la mia intuizione, sarebbe bello se qualcuno potesse spiegarlo in modo più formale, se è corretto).

NOTA: ho riscritto questa domanda dopo una discussione in meta con whuber e Macro


3
Penso che questo sia un grande miglioramento. La domanda ora è molto chiara. In questo momento non ho tempo di dare una risposta ben organizzata, ma posterò una risposta più tardi.
Macro

3
I modelli logistici di effetti misti sembrano un argomento estremamente avanzato per il liceo. Fanno parte del programma del tuo liceo o studi in modo indipendente?
mark999,

4
@ mark999 Sto studiando in modo indipendente. In realtà sto cercando di dimostrare a mio fratello che ha torto che ha detto "non c'è modo di capirlo" . Si sta laureando in statistica, quindi ho accesso a tutti i suoi libri, ecc. (Quando è gentile).
Joe King,

Risposte:


15

Sia denotare la risposta e il vettore predittore (rispettivamente) dello studente i nella scuola j .yij,xijij

(1) Per i dati binari, penso che il modo standard di fare decomposizioni di varianza analogo a quello fatto per i dati continui sia quello che gli autori chiamano Metodo D (commenterò gli altri metodi di seguito) nel tuo link - immaginando i dati binari come derivante da una variabile continua sottostante governata da un modello lineare e scomporre la varianza su quella scala latente. Il motivo è che i modelli logistici (e altri GLM) nascono naturalmente in questo modo:

Per vedere questo, definisci modo che sia governato da un modello misto lineare:yij

yij=α+xijβ+ηj+εij

dove sono coefficienti di regressione, η jN ( 0 , σ 2 ) è l'effetto casuale a livello di scuola e ε i j è il termine di varianza residuo e ha una distribuzione logistica standard . Adesso mollaα,βηjN(0,σ2)εij

yij={1if   yij00if   yij<0

let ora, semplicemente usando il CDF logistico che abbiamopij=P(yij=1|xij,ηj)

pij=1P(yij<0|xij,ηj)=exp{(α+xijβ+ηj)}1+exp{(α+xijβ+ηj)}

ora hai la trasformazione logit di entrambi i lati, hai

log(pij1pij)=α+xijβ+ηj

che è esattamente il modello logistico di effetti misti. Pertanto, il modello logistico è equivalente al modello variabile latente specificato sopra. Una nota importante:

  • εijs

exp{(α+xijβ+ηj)/s}1+exp{(α+xijβ+ηj)/s}

       therefore the coefficients and random effects would simply be scaled up by the
       corresponding amount. So, s=1 is used, which implies var(εij)=π2/3.

Now, if you use this model and then the quantity

σ^η2σ^η2+π2/3

estimates the intraclass correlation of the underlying latent variables. Another important note:

  • If εij is specified as, instead, having a standard normal distribution, then you have the mixed effects probit model. In that case
    σ^η2σ^η2+1
    estimates the tetrachoric correlation between two randomly selected pupils in the same school, which were shown by Pearson (around 1900 I think) to be statistically identified when the underlying continuous data was normally distributed (this work actually showed these correlations were identified beyond the binary case to the multiple category case, where these correlations are termed polychoric correlations). For this reason, it may be preferable (and would be my recommenation) to use a probit model when the primary interest is in estimating the (tetrachoric) intraclass correlation of binary data.

Regarding the other methods mentioned in the paper you linked:

  • (A) I've never seen the linearization method, but one drawback I can see is that there's no indication of the approximation error incurred by this. In addition, if you're going to linearize the model (through a potentially crude approximation), why not just use a linear model in the first place (e.g. option (C), which I'll get to in a minute)? It would also be more complicated to present since the ICC would depend on xij.

  • (B) The simulation method is intuitively appealing to a statistician since it would give you an estimated variance decomposition on the original scale of the data but, depending on the audience, it may (i) be complicated to describe this in your "methods" section and (ii) may turn off a reviewer who was looking for something "more standard"

  • (C) Pretending the data is continuous is probably not a great idea, although it won't perform terribly if most of the probabilities are not too close to 0 or 1. But, doing this would almost certainly raise a red flag to a reviewer so I'd stay away.

Now finally,

(2) If the fixed effects are very different across years, then you're right to think that it could be difficult to compare the random effect variances across years, since they are potentially on different scales (this is related to the non-identifiability of scaling issue mentioned above).

If you want to keep the fixed effects over time (however, if you see them changing a lot over time, you may not want to do that) but look at the change in the random effect variance, you can explore this effect using some random slopes and dummy variables. For example, if you wanted to see if the ICCs were different in different years, you culd let Ik=1 if the observation was made in year k and 0 otherwise and then model your linear predictor as

α+xijβ+η1jI1+η2jI2+η3jI3+η4jI4+η5jI5+η6jI6

this will give you a different ICCs each year but the same fixed effects. It may be tempting to just use a random slope in time, making your linear predictor

α+xijβ+η1+η2t

but I don't recommend this, since that will only allow your associations to increase over time, not decrease.


Please would you give me your comment to address the point in the linked article about this variance partitioning technique that says "This approach may be reasonable where the (0, 1) response is, say, derived from a truncation of an underlying continuum such as a pass/fail response based upon a continuous mark scale, but would seem to have less justification when the response is truly discrete, such as mortality or voting". In my case I am dealing with the incidence of bullying, which falls into the latter category, I think...
Joe King

@JoeKing, I would say that logistic/probit (and similar) regression models already assume that the data are generated from an underlying continuum, since the model can be shown to be equivalent to that. Therefore, if one is even using such models, then they must find that assumption to be defensible :)
Macro

1
@JoeKing, if you consider this answer definitive please consider accepting :)
Macro

I will indeed. At the moment I'm a bit uncertain about a few points and I'd like to come back to you after I've had a little time (couple of days) to read around a little, and look at the data some more, if you don't mind ?
Joe King

@JoeKing Of course - some new members are unaware, so I thought I'd point that out - it wasn't meant to place pressure you at all
Macro
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.