Abbiamo chiesto a 60 persone di elencare il maggior numero di franchising di ristoranti ad Atlanta che potevano. L'elenco complessivo comprendeva oltre 70 ristoranti, ma abbiamo eliminato quelli menzionati da meno del 10% delle persone, lasciandoci con 45. Per questi 45, abbiamo calcolato la percentuale di informatori che hanno elencato il franchising e siamo interessati a modellare questa proporzione in funzione del budget pubblicitario del franchising (trasformato in tronchi) e degli anni trascorsi da quando è diventato un franchising.
Quindi ho scritto questo codice:
model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)
Come previsto, entrambe le variabili mostrano effetti forti e significativi.
Ma anche se so che i dati proporzionali non dovrebbero mai essere modellati con la regressione OLS, successivamente ho scritto questo codice:
model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)
In questo caso, "budget" è ancora un fattore predittivo significativo, ma "anni" è relativamente debole e non significativo.
Mi preoccupa che la fiducia nelle stime sia gonfiata artificialmente dall'aggregazione. Il glm binomiale essenzialmente non vettorializza i dati in modo tale che il modello sia basato su 45 * 55 = 2.475 righe? È appropriato dato che in realtà ci sono solo 45 ristoranti e 55 informatori? Questo richiederebbe la modellazione di effetti misti?
lm
e glm(...,family=binomial)
, ma una delle più importanti è che un GLM binomiale fa forti ipotesi sulla varianza. Se i dati non sono sovradispersi, l'aggregazione / disaggregazione non fa differenza.
family=quasibinomial