Includere termini casuali nel modello è un modo per indurre una struttura di covarianza tra i voti. Il fattore casuale per la scuola induce una covarianza diversa da zero tra studenti diversi della stessa scuola, mentre è quando la scuola è diversa.0
Scriviamo il tuo modello come
dove s indicizza la scuola e io indicizza gli studenti (in ogni scuola). I termini della scuola s sono variabili aleatorie indipendenti disegnati in uno N ( 0 , T si ) . Le e s , i sono variabili indipendenti casuali disegnati in uno N ( 0 , σ
Ys , io= α + ores , ioβ+ scuolaS+ es , io
SioscuolaSN( 0 , τ)es , io .
N( 0 , σ2)
Questo vettore ha un valore atteso
che è determinato dal numero di ore lavorate.
[ α + ores , ioβ]s , io
La covarianza tra e Y s ′ , i ′ è 0 quando s ≠ s ′ , il che significa che la partenza dei voti dai valori previsti è indipendente quando gli studenti non sono nella stessa scuola.Ys ,ioYS', i'0s ≠ s'
La covarianza tra e Y s , i ′ è τ quando i ≠ i ′ e la varianza di Y s , i è τ + σ 2 : i voti degli studenti della stessa scuola avranno correlato gli scostamenti dai loro valori previsti .Ys , ioYs , io'τio ≠ io'Ys , ioτ+ σ2
Esempio e dati simulati
Ecco una breve simulazione R per cinquanta studenti di cinque scuole (qui prendo ); i nomi della variabile sono auto documentanti: σ2= τ= 1
set.seed(1)
school <- rep(1:5, each=10)
school_effect <- rnorm(5)
school_effect_by_ind <- rep(school_effect, each=10)
individual_effect <- rnorm(50)
Tracciamo le partenze dal voto previsto per ogni studente, cioè i termini , insieme a (linea tratteggiata) la partenza media per ogni scuola:scuolaS+ es , io
plot(individual_effect + school_effect_by_ind, col=school, pch=19,
xlab="student", ylab="grades departure from expected value")
segments(seq(1,length=5,by=10), school_effect, seq(10,length=5,by=10), col=1:5, lty=3)
Ora commentiamo questa trama. Il livello di ciascuna linea tratteggiata (corrispondente alla ) è disegnato in modo casuale in una legge normale. I termini casuali specifici dello studente sono anche disegnati a caso in una legge normale, corrispondono alla distanza dei punti dalla linea tratteggiata. Il valore risultante è, per ogni studente, la partenza da α + ore β , il voto determinato dal tempo impiegato per lavorare. Di conseguenza, gli alunni della stessa scuola sono più simili tra loro rispetto agli alunni di scuole diverse, come hai affermato nella tua domanda.scuolaSα + ore β
La matrice di varianza per questo esempio
Nelle simulazioni di cui sopra attingiamo a parte la scuola effetti e gli effetti individuali e s , i , quindi le considerazioni di covarianza con cui ho iniziato non sembrano chiaramente qui. In effetti, avremmo ottenuto risultati simili disegnando un vettore normale casuale di dimensione 50 con matrice di covarianza a blocchi diagonali
[ A 0 0 0 0 0 A 0 0 0 0 0 A 0 0 0 0 0 A 0 0 0 0 0 A ]
dove ciascuno dei cinquescuolaSes , io
⎡⎣⎢⎢⎢⎢⎢⎢UN00000UN00000UN00000UN00000UN⎤⎦⎥⎥⎥⎥⎥⎥
blocchi
A corrispondono alla covarianza tra gli studenti di una stessa scuola:
A = [ 2 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 2 110 × 10UNA = ⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢2111111111121111111111211111111112111111111121111111111211111111112111111111121111111111211111111112⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥.