Ho due anni di dati che assomigliano sostanzialmente a questo:
Data _ __ Violenza S / N? _ Numero di pazienti
1/1/2008 _ ___ 0 __ _ __ _ ____ 11
2/1/2008 _ __ _ 0 _ __ _ __ _ __ 11
3/1/2008 _ ____ 1 __ _ __ _ ____ 12
4/1/2008 _ ____ 0 __ _ __ _ ____ 12
...
31/12 / 2009_ _ __ 0_ _ __ _ __ _ __ 14
vale a dire due anni di osservazioni, una al giorno, su un reparto psichiatrico, che indicano se in quel giorno si è verificato un episodio di violenza (1 è sì, 0 no) e il numero di pazienti nel reparto. L'ipotesi che desideriamo testare è che un numero maggiore di pazienti nel reparto è associato a una maggiore probabilità di violenza nel reparto.
Ci rendiamo conto, ovviamente, che dovremo adeguarci al fatto che quando ci sono più pazienti nel reparto, la violenza è più probabile perché ce ne sono molti di più - ci interessa sapere se la probabilità di violenza di ogni individuo aumenta quando ci sono più pazienti nel reparto.
Ho visto diversi articoli che usano solo la regressione logistica, ma penso che sia sbagliato perché c'è una struttura autoregressiva (anche se, guardando la funzione di autocorrelazione, non va al di sopra di .1 in nessun ritardo, anche se questo è al di sopra del Linea tratteggiata blu "significativa" che R disegna per me).
Solo per rendere le cose più complicate, posso se desidero suddividere i risultati in singoli pazienti, in modo che i dati sembrino esattamente come sopra, tranne che avrei i dati per ciascun paziente, 1/1/2008, 2 / 1/2008 ecc. E un codice identificativo che scende sul lato in modo che i dati mostrino l'intera storia degli incidenti per ciascun paziente separatamente (anche se non tutti i pazienti sono presenti per tutti i giorni, non sono sicuro che sia importante).
Vorrei usare lme4 in R per modellare la struttura autoregressiva all'interno di ciascun paziente, ma alcuni googling escono con la citazione "lme4 non è impostato per gestire strutture autoregressive". Anche se lo fosse, non sono sicuro di capire comunque come scrivere il codice.
Nel caso in cui qualcuno se ne accorga, ho fatto una domanda del genere qualche tempo fa, sono set di dati diversi con problemi diversi, anche se in realtà risolvere questo problema aiuterà con quello (qualcuno mi ha suggerito di usare metodi misti in precedenza, ma questa cosa di autoregressione mi ha fatto incerto su come farlo).
Quindi sono un po 'bloccato e perso per essere onesto. Qualsiasi aiuto ricevuto con gratitudine!
pgmm
dal pacchetto plm ma dato che la tua variabile di risposta è binaria, non so esattamente come farlo. Forse altri possono elaborare ... (E sì hai ragione: la mia comprensione è ogni volta che hai una variabile endogena, in questo caso il valore ritardato, non puoi usare REML per stimare perché è distorto, quindi devi usare GMM .)