Questi dati possono essere aggregati in una proporzione per una gloria binomiale?


11

Abbiamo chiesto a 60 persone di elencare il maggior numero di franchising di ristoranti ad Atlanta che potevano. L'elenco complessivo comprendeva oltre 70 ristoranti, ma abbiamo eliminato quelli menzionati da meno del 10% delle persone, lasciandoci con 45. Per questi 45, abbiamo calcolato la percentuale di informatori che hanno elencato il franchising e siamo interessati a modellare questa proporzione in funzione del budget pubblicitario del franchising (trasformato in tronchi) e degli anni trascorsi da quando è diventato un franchising.

Quindi ho scritto questo codice:

model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)

Come previsto, entrambe le variabili mostrano effetti forti e significativi.

Ma anche se so che i dati proporzionali non dovrebbero mai essere modellati con la regressione OLS, successivamente ho scritto questo codice:

model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)

In questo caso, "budget" è ancora un fattore predittivo significativo, ma "anni" è relativamente debole e non significativo.

Mi preoccupa che la fiducia nelle stime sia gonfiata artificialmente dall'aggregazione. Il glm binomiale essenzialmente non vettorializza i dati in modo tale che il modello sia basato su 45 * 55 = 2.475 righe? È appropriato dato che in realtà ci sono solo 45 ristoranti e 55 informatori? Questo richiederebbe la modellazione di effetti misti?


4
Suggerimento: vedere cosa succede confamily=quasibinomial
Ben Bolker

1
Interessante. I coefficienti stimati sono gli stessi, ma gli errori standard sono più conservativi (e gli anni non sono significativi nel modello quasibinomiale). Sto cercando i file di aiuto per quasibinomial, ma puoi spiegare cosa sta succedendo? La mia impressione è stata che il quasibinomiale sia utilizzato principalmente per la sovradispersione. . .
Jeremy _

3
Esattamente. Ci sono una varietà di differenze tra lme glm(...,family=binomial), ma una delle più importanti è che un GLM binomiale fa forti ipotesi sulla varianza. Se i dati non sono sovradispersi, l'aggregazione / disaggregazione non fa differenza.
Ben Bolker,

1
L'output R mostra che il parametro di dispersione è considerato 8.7. Sto cercando di capire cosa dice questo sull'iperdispersione. Nel frattempo, Ben, vedo che hai abbastanza background con modelli misti. Sto usando un glm binomiale sicuro senza effetti misti per informatore o franchising (nel qual caso dovrei presumibilmente vettorizzare tutti i dati mentre aggiungo una colonna per "ID informatore")?
Jeremy _

Risposte:


1

Y=cX1K1X2K2...XnKnln(Y)=ln(c)+K1ln(X1)+K2ln(X2)...+Knln(Xn)R2

Ora se la linea di regressione inalterata (idealmente una regressione bivariata, ad esempio una regressione di Deming) non passa plausibilmente attraverso {0,0}, allora diventa un po 'più complicata e si minimizza una funzione di perdita proporzionale offset anziché usare il minimo ordinario piazze.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.