Vorrei utilizzare i dati di conteggio come covariate mentre si adattava un modello di regressione logistica. La mia domanda è:
- Violo l'assunzione dei modelli logistici (e, più in generale, dei lineari generalizzati) utilizzando variabili di numero intero non negativo come variabili indipendenti?
Ho trovato molti riferimenti in letteratura riguardo a hot per usare i dati di conteggio come risultato, ma non come covariate; si veda ad esempio il documento molto chiaro: "NE Breslow (1996) Modelli lineari generalizzati: verifica delle ipotesi e rafforzamento delle conclusioni, Congresso Nazionale Società Italiana di Biometria, Cortona, giugno 1995", disponibile su http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf .
A grandi linee, sembra che le ipotesi di glm possano essere espresse come segue:
- i residui;
- la funzione di collegamento deve rappresentare correttamente la relazione tra variabili dipendenti e indipendenti;
- assenza di valori anomali
Tutti sanno se esiste qualche altro presupposto / problema tecnico che potrebbe suggerire di utilizzare qualche altro tipo di modello per trattare con le covariate?
Infine, tieni presente che i miei dati contengono relativamente pochi campioni (<100) e che gli intervalli delle variabili di conteggio possono variare entro 3-4 ordine di grandezza (ovvero alcune variabili hanno un valore compreso nell'intervallo 0-10, mentre altre possono avere valori all'interno di 0-10000).
Segue un semplice codice di esempio R:
\###########################################################
\#generating simulated data
var1 <- sample(0:10, 100, replace = TRUE);
var2 <- sample(0:1000, 100, replace = TRUE);
var3 <- sample(0:100000, 100, replace = TRUE);
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);
\#fitting the model
model <- glm(outcome ~ ., family=binomial, data = dataset)
\#inspecting the model
print(model)
\###########################################################