Studio della solidità della regressione logistica contro la violazione della linearità del logit


10

Sto conducendo una regressione logistica con un risultato binario (inizio e non inizio). Il mio mix di predittori sono tutte variabili continue o dicotomiche.

Utilizzando l'approccio Box-Tidwell, uno dei miei predittori continui potenzialmente viola l'assunzione di linearità del logit. Non ci sono indicazioni da statistiche sulla bontà di adattamento che siano problematiche.

Successivamente ho eseguito nuovamente il modello di regressione, sostituendo la variabile continua originale con: in primo luogo, una trasformazione a radice quadrata e, in secondo luogo, una versione dicotomica della variabile.

All'ispezione dell'output, sembra che la bontà di adattamento migliora marginalmente ma i residui diventano problematici. Le stime dei parametri, gli errori standard e rimangono relativamente simili. L'interpretazione dei dati non cambia in termini di mia ipotesi, attraverso i 3 modelli.exp(β)

Pertanto, in termini di utilità dei miei risultati e senso di interpretazione dei dati, sembra appropriato riportare il modello di regressione utilizzando la variabile continua originale.

Mi chiedo questo:

  1. Quando la regressione logistica è robusta contro la potenziale violazione della linearità dell'assunzione del logit?
  2. Dato il mio esempio sopra, sembra accettabile includere la variabile continua originale nel modello?
  3. Ci sono riferimenti o guide là fuori per raccomandare quando è soddisfacente accettare che il modello sia solido contro la potenziale violazione della linearità del logit?

Risposte:


16

L'assunto di linearità è così comunemente violato nella regressione che dovrebbe essere chiamato una sorpresa piuttosto che un'ipotesi. Come altri modelli di regressione, il modello logistico non è robusto per la non linearità quando si assume falsamente la linearità. Invece di rilevare la non linearità usando i residui o la bontà omnibus dei test di adattamento, è meglio usare i test diretti. Ad esempio, espandere predittori continui utilizzando le spline di regressione ed eseguire un test composito di tutti i termini non lineari. Meglio ancora non testare i termini e aspettarsi solo la non linearità. Questo approccio è molto meglio del provare diverse scelte di trasformazioni a pendenza singola come radice quadrata, log, ecc., Poiché l'inferenza statistica derivante da tali analisi sarà errata perché non ha gradi di libertà sufficienti per la numerazione.

Ecco un esempio in R.

require(rms)
f <- lrm(y ~ rcs(age,4) + rcs(blood.pressure,5) + sex + rcs(height,4))
# Fits restricted cubic splines in 3 variables with default knots
# 4, 5, 4 knots = 2, 3, 2 nonlinear terms
Function(f)   # display algebraic form of fit
anova(f)      # obtain individual + combined linearity tests

La tua risposta ha un senso fantastico - grazie! Potresti suggerire la sintassi da usare in SPSS? Sfortunatamente non ho accesso (o abilità) per utilizzare R.
Short Elizabeth il

1
Vale sicuramente la pena di imparare R, e ho molti volantini relativi alla modellazione logistica e al pacchetto rms. Questo sarebbe difficile da fare in SPSS.
Frank Harrell,

@FrankHarrell: la f <- lrm(y ~ ...riga dà un errore object 'y' not found- puoi sistemare?
arielf

1
Questo è un errore R di base non univoco per il mio rmspacchetto. Dedica un po 'di tempo a conoscere R, iniziando con materiale esauriente disponibile per la lmfunzione di regressione di base .
Frank Harrell,

1
Gli esempi integrati nelle pagine della guida del software simulano tali dati, quindi guarda l'intero esempio nel contesto. Fare require(rms)quindi ?lrmpoiexamples(lrm)
Frank Harrell
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.