Sto lavorando con un set di dati di grandi dimensioni (riservato, quindi non posso condividere troppo),
Potrebbe essere possibile creare un piccolo set di dati che presenta alcune delle caratteristiche generali dei dati reali senza i nomi delle variabili né i valori effettivi.
e giunse alla conclusione che sarebbe necessaria una regressione binomiale negativa. Non ho mai fatto una regressione glm prima e non riesco a trovare informazioni chiare su quali siano le ipotesi. Sono gli stessi per MLR?
Chiaramente no! Sai già che stai assumendo che la risposta sia binomiale condizionatamente negativa, non condizionatamente normale. ( Alcuni presupposti sono condivisi. Indipendenza per esempio.)
Vorrei parlare prima dei GLM più in generale.
I GLM includono regressione multipla ma generalizzano in diversi modi:
1) la distribuzione condizionale della risposta (variabile dipendente) è dal famiglia esponenziale , che include la distribuzione di Poisson, binomiale, gamma, normale e numerose altre.
2) la risposta media è correlata ai predittori (variabili indipendenti) attraverso una funzione di collegamento . Ogni famiglia di distribuzioni ha una funzione di collegamento canonico associata - ad esempio nel caso di Poisson, il collegamento canonico è il registro . I collegamenti canonici sono quasi sempre quelli predefiniti, ma nella maggior parte dei software in genere sono disponibili diverse opzioni all'interno di ciascuna scelta di distribuzione. Per il binomio il collegamento canonico è il logit (il predittore lineare è il log di modellazione ( plog( p1 - p) , le probabilità del log di un successo, o un "1") e per il Gamma il collegamento canonico è l'inverso - ma in entrambi i casi vengono spesso utilizzate altre funzioni di collegamento.
Quindi se la tua risposta fosse e i tuoi predittori fossero X 1 e X 2 , con una regressione di Poisson con il collegamento del log che potresti avere per la tua descrizione di come la media di Y è correlata alle X :YX1X2YX
E ( Yio) = μio
logμio= ηioηlogg
ηio= β0+ β1X1 i+ β2X2 i
3) la varianza della risposta non è costante, ma opera attraverso una funzione di varianza (una funzione della media, forse volte un parametro di ridimensionamento). Ad esempio, la varianza di un Poisson è uguale alla media, mentre per un gamma è proporzionale al quadrato della media. (Le quasi-distribuzioni consentono un certo grado di disaccoppiamento della funzione di varianza dalla distribuzione presunta)
-
Quindi quali ipotesi sono in comune con ciò che ricordi dell'MLR?
L'indipendenza è ancora lì.
L'omoschedasticità non è più assunta; la varianza è esplicitamente una funzione della media e quindi in generale varia con i predittori (quindi mentre il modello è generalmente eteroschedastico, l'eteroschedasticità assume una forma specifica).
Xβ
La distribuzione della risposta è sostanzialmente più generale
t
I confronti tra modelli nidificati (tramite 'anova-table' come le configurazioni) sono un po 'diversi, ma simili (comportano test chi-quadrati asintotici). Se sei a tuo agio con AIC e BIC, questi possono essere calcolati.
Generalmente vengono utilizzati tipi di display diagnostici simili, ma può essere più difficile da interpretare.
Gran parte della tua intuizione di regressione lineare multipla continuerà se tieni a mente le differenze.
YX
E ( Y) = exp( η) = exp( Xβ) = exp( β0+ β1X )
Var ( Y) = σ2
YX
Posso trasformare le variabili allo stesso modo (ho già scoperto che trasformare la variabile dipendente è una cattiva chiamata poiché deve essere un numero naturale)?
Tu (di solito) non vuoi trasformare la risposta (DV). A volte potresti voler trasformare predittori (IV) per ottenere la linearità del predittore lineare.
Ho già determinato che la distribuzione binomiale negativa aiuterebbe con l'eccessiva dispersione nei miei dati (la varianza è intorno al 2000, la media è 48).
Sì, può gestire la sovradispersione. Ma fai attenzione a non confondere la dispersione condizionale con la dispersione incondizionata .
Un altro approccio comune - se un po 'più fastidioso e un po' meno soddisfacente per la mia mente - è la regressione quasi-Poisson (regressione troppo diffusa di Poisson).
Con il binomio negativo, è nella famiglia esponenziale se si specifica uno dei suoi parametri particolari (il modo in cui di solito è riparametrizzato almeno per GLMS). Alcuni pacchetti si adatteranno se si specifica il parametro, altri avvolgeranno la stima ML di quel parametro (diciamo tramite la probabilità del profilo) attorno a una routine GLM, automatizzando il processo. Alcuni ti limiteranno a un set più piccolo di distribuzioni; non dici quale software potresti usare, quindi è difficile dire molto di più lì.
Penso che di solito il log-link tenda ad essere usato con regressione binomiale negativa.
Esistono numerosi documenti a livello introduttivo (facilmente reperibili tramite google) che conducono ad alcuni GLM di Poisson di base e quindi a analisi GLM binomiali negative dei dati, ma potresti preferire guardare un libro sui GLM e magari fare prima una piccola regressione di Poisson solo per abituarmi.