Sto leggendo A. Agresti (2007), An Introduction to Categorical Data Analysis , 2 °. edizione e non sono sicuro di aver compreso correttamente questo paragrafo (p.106, 4.2.1) (anche se dovrebbe essere facile):
Nella Tabella 3.1 sul russare e le malattie cardiache nel capitolo precedente, 254 soggetti hanno riferito di russare ogni notte, di cui 30 avevano malattie cardiache. Se il file di dati ha raggruppato dati binari, una riga nel file di dati riporta questi dati come 30 casi di malattie cardiache su una dimensione del campione di 254. Se il file di dati ha dati binari non raggruppati, ogni riga nel file di dati fa riferimento a un soggetto separato, quindi 30 righe contengono 1 per le malattie cardiache e 224 righe contengono 0 per le malattie cardiache. Le stime ML e i valori SE sono gli stessi per entrambi i tipi di file di dati.
Trasformare un insieme di dati non raggruppati (1 dipendente, 1 indipendente) richiederebbe più di una "linea" per includere tutte le informazioni !?
Nell'esempio seguente viene creato un set di dati semplice (non realistico!) E viene creato un modello di regressione logistica.
Come sarebbero effettivamente i dati raggruppati (scheda variabile?)? Come è possibile creare lo stesso modello utilizzando i dati raggruppati?
> dat = data.frame(y=c(0,1,0,1,0), x=c(1,1,0,0,0))
> dat
y x
1 0 1
2 1 1
3 0 0
4 1 0
5 0 0
> tab=table(dat)
> tab
x
y 0 1
0 2 1
1 1 1
> mod1=glm(y~x, data=dat, family=binomial())