I predittori significativi diventano non significativi nella regressione logistica multipla


11

Quando analizzo le mie variabili in due modelli di regressione logistica separati (univariati), ottengo quanto segue:

Predictor 1:    B= 1.049,    SE=.352,    Exp(B)=2.85,    95% CI=(1.43, 5.69),    p=.003
   Constant:    B=-0.434,    SE=.217,    Exp(B)=0.65,                            p=.046

Predictor 2:    B= 1.379,    SE=.386,    Exp(B)=3.97,    95% CI=(1.86, 8.47),    p<.001
   Constant:    B=-0.447,    SE=.205,    Exp(B)=0.64,                            p=.029

ma quando li inserisco in un singolo modello di regressione logistica multipla, ottengo:

Predictor 1:    B= 0.556,    SE=.406,    Exp(B)=1.74,    95% CI=(0.79, 3.86),    p=.171
Predictor 2:    B= 1.094,    SE=.436,    Exp(B)=2.99,    95% CI=(1.27, 7.02),    p=.012
   Constant:    B=-0.574,    SE=.227,    Exp(B)=0.56,                            p=.012

Entrambi i predittori sono dicotomici (categorici). Ho verificato la multicollinearità.

Non sono sicuro di aver fornito informazioni sufficienti, ma non riesco a capire perché il predittore 1 sia passato da significativo a non significativo e perché gli odds ratio siano così diversi nel modello di regressione multipla. Qualcuno può fornire una spiegazione di base di ciò che sta succedendo?


2
multivariato di solito indica più variabili dipendenti - intendevi più predittori, giusto? Questo sarebbe di solito indicato come regressione multipla.
Macro

1
β

ah, ok grazie. Ho verificato la diagnostica della collinearità attraverso la regressione lineare su spss e verificato la tolleranza e VIF - è corretto?
Annie,

Bel commento @Macro. Ricordo vagamente di aver letto i modi per risolvere questo problema sulla scala, ma non ricordo dove.
Peter Flom - Ripristina Monica

1
π2/3

Risposte:


20

Esistono diversi motivi (nessuno dei quali è specificamente correlato alla regressione logistica, ma può verificarsi in qualsiasi regressione).

  1. Perdita di gradi di libertà: quando si cerca di stimare più parametri da un determinato set di dati, si sta effettivamente chiedendo di più, il che costa la precisione, quindi porta a statistiche t inferiori, quindi valori p più alti.
  2. Correlazione dei regressori: i tuoi regressori possono essere collegati tra loro, misurando efficacemente qualcosa di simile. Ad esempio, il tuo modello logit è quello di spiegare lo stato del mercato del lavoro (lavoro / non lavoro) in funzione dell'esperienza e dell'età. Individualmente, entrambe le variabili sono positivamente correlate allo stato, in quanto i dipendenti più esperti / anziani (escludendo i dipendenti molto anziani per motivi di discussione) trovano più facile trovare lavoro rispetto ai neolaureati. Ora, ovviamente, le due variabili sono fortemente correlate, poiché è necessario essere più anziani per avere più esperienza. Quindi, le due variabili sostanzialmente "competono" per spiegare lo stato, che può, specialmente in piccoli campioni, comportare la perdita di entrambe le variabili, poiché nessuno degli effetti può essere abbastanza forte e stimato in modo sufficientemente preciso quando si controlla che l'altro ottenga stime significative. In sostanza, ti stai chiedendo: qual è l'effetto positivo di un altro anno di esperienza nel mantenere costante l'età? È possibile che nel gruppo di dati non ci siano pochissimi impiegati per rispondere a questa domanda, quindi l'effetto verrà stimato in modo impreciso, portando a valori p elevati.

  3. Modelli non specificati: la teoria di base per t-statistics / valori-p richiede che si stima un modello correttamente specificato. Ora, se regredisci solo su un predittore, è molto probabile che quel modello univariato soffra di una distorsione da variabile omessa. Quindi, tutte le scommesse sono disattivate su come si comportano i valori p. Fondamentalmente, devi stare attento a fidarti di loro quando il tuo modello non è corretto.


Grazie per la tua risposta esauriente e rapida. Cercherò prima di eliminare qualsiasi multicollinearità. Ho eseguito correlazioni tra variabili e ne ho trovate alcune, e proverò a gestire i fattori di inflazione della varianza, come ho sentito dire che è un buon modo per verificare anche questo. Se si scopre che è solo una questione di gradi di libertà, c'è qualcosa che posso fare al riguardo? Posso spiegare che ciò sta accadendo, ma sembra compromettere l'integrità della regressione se il significato diminuisce così gravemente.
Sam O'Brien,

3
@ SamO'Brien: Nota che se il tuo obiettivo è davvero quello che hai detto che era - "cercare di determinare" quali variabili indipendenti potrebbero causare una risposta ", ignorandone alcune solo perché sono correlate con altre per" eliminare qualsiasi multicollinearità " non aiuta a raggiungerlo.
Scortchi - Ripristina Monica

1
È possibile farlo al contrario, ovvero lo stesso predittore non significativo nella regressione semplice ma significativo nella regressione multipla?
gkcn,

8

Non vi è alcun motivo particolare per cui ciò non dovrebbe accadere. La regressione multipla pone una domanda diversa dalla semplice regressione. In particolare, la regressione multipla (in questo caso, regressione logistica multipla) chiede la relazione tra le variabili dipendenti e le variabili indipendenti, controllando le altre variabili indipendenti. La regressione semplice richiede la relazione tra una variabile dipendente e una (singola) variabile indipendente.

Se aggiungi il contesto del tuo studio (ad esempio, quali sono queste variabili?) Potrebbe essere possibile fornire risposte più specifiche. Inoltre, dato che tutte e tre le variabili nel tuo caso sono dicotomie, potresti presentarci i dati abbastanza facilmente ... Sono necessarie solo 8 righe per riassumere questo:

DVioV1ioV2CountUNUNUN10UNUNB20

eccetera.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.