L'uso dei dati di conteggio come variabile indipendente viola una qualsiasi delle ipotesi GLM?


14

Vorrei utilizzare i dati di conteggio come covariate mentre si adattava un modello di regressione logistica. La mia domanda è:

  • Violo l'assunzione dei modelli logistici (e, più in generale, dei lineari generalizzati) utilizzando variabili di numero intero non negativo come variabili indipendenti?

Ho trovato molti riferimenti in letteratura riguardo a hot per usare i dati di conteggio come risultato, ma non come covariate; si veda ad esempio il documento molto chiaro: "NE Breslow (1996) Modelli lineari generalizzati: verifica delle ipotesi e rafforzamento delle conclusioni, Congresso Nazionale Società Italiana di Biometria, Cortona, giugno 1995", disponibile su http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf .

A grandi linee, sembra che le ipotesi di glm possano essere espresse come segue:

  • i residui;
  • la funzione di collegamento deve rappresentare correttamente la relazione tra variabili dipendenti e indipendenti;
  • assenza di valori anomali

Tutti sanno se esiste qualche altro presupposto / problema tecnico che potrebbe suggerire di utilizzare qualche altro tipo di modello per trattare con le covariate?

Infine, tieni presente che i miei dati contengono relativamente pochi campioni (<100) e che gli intervalli delle variabili di conteggio possono variare entro 3-4 ordine di grandezza (ovvero alcune variabili hanno un valore compreso nell'intervallo 0-10, mentre altre possono avere valori all'interno di 0-10000).

Segue un semplice codice di esempio R:

\###########################################################

\#generating simulated data

var1 <- sample(0:10, 100, replace = TRUE);    
var2 <- sample(0:1000, 100, replace = TRUE);    
var3 <- sample(0:100000, 100, replace = TRUE);    
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);

\#fitting the model

model <- glm(outcome ~ ., family=binomial, data = dataset)

\#inspecting the model

print(model)

\###########################################################

Benvenuti nel sito! Un'osservazione: se vuoi firmare i tuoi post, usa il tuo profilo (specialmente la casella su di me).

11
di solito, nei modelli GLM, le variabili predittive ("indipendenti") dovrebbero essere solo alcune costanti conosciute, NON ci sono ipotesi distributive su di esse! Quindi non c'è nulla di sbagliato nell'usare i dati di conteggio come predittori.
kjetil b halvorsen,

1
kjetil È corretto - e una buona risposta alla domanda. Tuttavia, con le gamme estreme di IV descritte qui, si sarebbe saggi valutare l'influenza dei dati, verificare la bontà di adattamento e in particolare valutare il potenziale di una relazione non lineare. Ciò si farebbe nella speranza che la relazione in realtà non sia lineare e che una reespressione degli IV, come una radice o un log, la linearizzi, alleviando così contemporaneamente alcuni dei problemi di influenza. Questo è probabilmente ciò che @ user14583 sta cercando di indicare nella loro risposta.
whuber

@kjetilbhalvorsen - Sono d'accordo su "nessuna ipotesi distributiva", ma non credo che intendessi dire "conosciuti" o "costanti", poiché nessuna di queste parole si adatta.
rolando2,

4
Sono "costanti" nel senso che non sono casuali: nessuna distribuzione. Sono "conosciuti" nel senso che si presume che vengano misurati senza errori, quindi il valore misurato è quello che stava effettivamente lavorando nel meccanismo di generazione dei dati. Il modello GLM presume che tutta la casualità sia nel meccanismo di risposta, che è spesso dubbia!
kjetil b halvorsen,

Risposte:


5

Ci sono alcune sfumature in gioco qui e potrebbero creare confusione.

Dichiari di comprendere le ipotesi di una regressione logistica tra cui " iid residuals ...". Direi che questo non è del tutto corretto. In genere lo diciamo per il modello lineare generale (cioè la regressione), ma in tal caso significa che i residui sono indipendenti l'uno dall'altro, con la stessa distribuzione (in genere normale) con la stessa media (0) e varianza ( vale a dire, varianza costante: omogeneità di varianza / omoscedasticità). Si noti tuttavia che per la distribuzione di Bernoulli e la distribuzione Binomiale, la varianza è una funzione della media. Pertanto, la varianza non potrebbe essere costante, a meno che la covariata non fosse perfettamente estranea alla risposta. Sarebbe un presupposto così restrittivo da rendere inutile la regressione logistica. Noto che nell'abstract del pdf che citi, elenca i presupposti che iniziano con "l'indipendenza statistica delle osservazioni", che potremmo chiamare i-but-not-id(senza significato essere troppo carini al riguardo).

Successivamente, come osserva @kjetilbhalvorsen nel commento sopra , si presume che i valori covariati (ovvero le variabili indipendenti) siano corretti nel Modello lineare generalizzato. Cioè, non vengono fatte ipotesi distributive particolari. Pertanto, non importa se sono conteggi o meno, né se vanno da 0 a 10, da 1 a 10000 o da -3.1415927 a -2.718281828.

Una cosa da considerare, tuttavia, come osserva @whuber , se hai un piccolo numero di dati che sono molto estremi su una delle dimensioni della covariata, quei punti potrebbero avere una grande influenza sui risultati della tua analisi. Cioè, potresti ottenere un certo risultato solo a causa di quei punti. Un modo per pensarci è fare una sorta di analisi di sensibilità adattando il tuo modello sia con che senza quei dati inclusi. Potresti pensare che sia più sicuro o più appropriato abbandonare quelle osservazioni, usare qualche forma di solida analisi statistica o trasformare quelle covariate in modo da ridurre al minimo l'estrema leva che avrebbero quei punti. Non definirei queste considerazioni come "assunzioni", ma sono certamente considerazioni importanti nello sviluppo di un modello appropriato.


1

Una cosa che vorrei sicuramente verificare sono le proprietà distributive delle variabili indipendenti. Molto spesso con i dati di conteggio, vedrai un disallineamento da moderato a grave. In tal caso, probabilmente vorrai trasformare i tuoi dati, poiché perderai la relazione log-lineare. Ma no, usare un modello logistico (o altro GLM) va bene.


3
In che modo l'inclinazione di destra perde "la relazione log-lineare"?
Glen_b -Restate Monica

3
Questo commento mi sembra errato. Come @Glen_b, non vedo come questo perderebbe necessariamente la relazione log-lineare. In ogni caso, sarebbe meglio esaminare la relazione direttamente (attraverso la trama, per esempio).
Peter Flom - Ripristina Monica

2
Una trasformazione non lineare di un IV cambierà sicuramente la relazione log-lineare in qualcos'altro, @Peter. Questa risposta mi sembra sostanzialmente corretta.
whuber

1
@whuber Concordo sul fatto che una trasformazione non lineare di una variabile cambierà la relazione tra essa e un'altra variabile. Sembra abbastanza chiaro. Ma da quale tipo di relazione a quale tipo? Perché non esaminare direttamente la relazione invece di assumere come verrà cambiata? Inoltre, la risposta sembra dire che la persona vuole perdere la relazione logaritmica.
Peter Flom - Ripristina Monica

2
È un buon punto @Peter. Eppure, alcune persone non vogliono cambiare il rapporto; questa non è necessariamente una nozione sbagliata. Concordo sul fatto che un esame diretto sia la procedura giusta: suggerirà come ri-esprimere gli IV coinvolti per creare relazioni lineari.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.