Sto cercando di affrontare un problema che riguarda l'imputazione dei dati mancanti da uno studio dei dati del panel (non sono sicuro se sto usando correttamente lo "studio dei dati del panel" - come l'ho imparato oggi.) Ho i dati del conteggio dei decessi totali per gli anni 2003 al 2009, tutti i mesi, maschio e femmina, per 8 distretti diversi e per 4 fasce di età.
Il frame di dati è simile al seguente:
District Gender Year Month AgeGroup TotalDeaths
Northern Male 2006 11 01-4 0
Northern Male 2006 11 05-14 1
Northern Male 2006 11 15+ 83
Northern Male 2006 12 0 3
Northern Male 2006 12 01-4 0
Northern Male 2006 12 05-14 0
Northern Male 2006 12 15+ 106
Southern Female 2003 1 0 6
Southern Female 2003 1 01-4 0
Southern Female 2003 1 05-14 3
Southern Female 2003 1 15+ 136
Southern Female 2003 2 0 6
Southern Female 2003 2 01-4 0
Southern Female 2003 2 05-14 1
Southern Female 2003 2 15+ 111
Southern Female 2003 3 0 2
Southern Female 2003 3 01-4 0
Southern Female 2003 3 05-14 1
Southern Female 2003 3 15+ 141
Southern Female 2003 4 0 4
Per i 10 mesi sparsi nel 2007 e nel 2008 alcuni dei decessi totali di tutti i distretti non sono stati registrati. Sto cercando di stimare questi valori mancanti attraverso un metodo di imputazione multipla. O utilizzando modelli lineari generalizzati o modelli SARIMA.
Il mio problema più grande è l'uso del software e della codifica. Ho fatto una domanda su StackOverflow, dove desidero estrarre i dati in gruppi più piccoli come questo:
District Gender Year Month AgeGroup TotalDeaths
Northern Male 2003 1 01-4 0
Northern Male 2003 2 01-4 1
Northern Male 2003 3 01-4 0
Northern Male 2003 4 01-4 3
Northern Male 2003 5 01-4 4
Northern Male 2003 6 01-4 6
Northern Male 2003 7 01-4 5
Northern Male 2003 8 01-4 0
Northern Male 2003 9 01-4 1
Northern Male 2003 10 01-4 2
Northern Male 2003 11 01-4 0
Northern Male 2003 12 01-4 1
Northern Male 2004 1 01-4 1
Northern Male 2004 2 01-4 0
Andando a
Northern Male 2006 11 01-4 0
Northern Male 2006 12 01-4 0
Ma qualcuno ha suggerito che dovrei piuttosto portare la mia domanda qui - forse chiedere una direzione? Al momento non sono in grado di inserire questi dati come serie temporale / studio di gruppo in R. Il mio obiettivo finale è quello di utilizzare questi dati e il amelia2
pacchetto con le sue funzioni per imputare la perdita TotalDeaths
per alcuni mesi nel 2007 e 2008, in cui i dati sono mancante.
Qualsiasi aiuto, come fare questo e forse suggerimenti su come affrontare questo problema sarebbero apprezzati con gratitudine.
Se questo aiuta, sto cercando di seguire un approccio simile a quello che ha fatto Clint Roberts nella sua tesi di dottorato .
MODIFICARE:
Dopo aver creato la variabile 'time' e 'group' come suggerito da @Matt:
> head(dat)
District Gender Year Month AgeGroup Unnatural Natural Total time group
1 Khayelitsha Female 2001 1 0 0 6 6 1 Khayelitsha.Female.0
2 Khayelitsha Female 2001 1 01-4 1 3 4 1 Khayelitsha.Female.01-4
3 Khayelitsha Female 2001 1 05-14 0 0 0 1 Khayelitsha.Female.05-14
4 Khayelitsha Female 2001 1 15up 8 73 81 1 Khayelitsha.Female.15up
5 Khayelitsha Female 2001 2 0 2 9 11 2 Khayelitsha.Female.0
6 Khayelitsha Female 2001 2 01-4 0 2 2 2 Khayelitsha.Female.01-4
Come noterai, in realtà ci sono ulteriori dettagli "Naturale" e "Non naturale".
Amelia
per un po 'ma ho rinunciato (prima di questo). Ho già visto la vignetta (ma l'ho persa in qualche modo!) L'ho appena vista e la esaminerò a fondo. Un problema che ho ora è che non sono sicuro su come creare le variabiligroup
etime
. (Ho provato a crearli per l'analisi / previsione delle serie storiche, ma ho fatto un giro attorno ad esso.) Sono sicuro che è nel vigette - quindi ti risponderò se sto lottando. Grazie ancora :)