Come devo verificare l'assunzione di linearità al logit per le variabili indipendenti continue nell'analisi della regressione logistica?


13

Sono confuso con l'assunzione di linearità al logit per variabili predittive continue nell'analisi della regressione logistica. Dobbiamo verificare la relazione lineare durante lo screening di potenziali predittori utilizzando l'analisi di regressione logistica univariabile?

Nel mio caso, sto usando l'analisi di regressione logistica multipla per identificare i fattori associati allo stato nutrizionale (esito dicotomico) tra i partecipanti. Le variabili continue tra cui l'età, il punteggio di comorbidità di Charlson, il punteggio dell'indice di Barthel, la forza della presa della mano, il punteggio GDS, l'IMC ecc. Il mio primo passo è quello di selezionare variabili significative usando una semplice regressione logistica. Devo verificare l'assunzione di linearità durante le semplici analisi di regressione logistica per ogni variabile continua? O dovrei semplicemente verificarlo nel modello di regressione logistica multipla finale?

Inoltre, per la mia comprensione, dobbiamo trasformare la variabile continua non lineare prima di inserirla nel modello. Posso classificare la variabile continua non lineare invece della trasformazione?


1
Si dovrebbe non catalogare, meglio provare spline!
kjetil b halvorsen,

Risposte:


11

Come descrivo in dettaglio nel mio libro Regressione Modeling Strategies (2a edizione disponibile 2015-09-04, e-book disponibile ora), il processo di tentativo di trasformare le variabili prima che la modellazione sia piena di problemi, uno dei più importanti è la distorsione di errore di tipo I e intervalli di confidenza. La categorizzazione causa problemi ancora più gravi, in particolare mancanza di adattamento e arbitrarietà.

Invece di pensare a questo come a un problema di "verifica della mancanza di adattamento", è meglio pensarlo come specificare un modello che molto probabilmente si adatta. Un modo per farlo è quello di allocare parametri alle parti del modello che sono probabilmente forti e per le quali la linearità non è già nota per essere un presupposto ragionevole. In questo processo si esamina la dimensione effettiva del campione (nel tuo caso il minimo del numero di eventi e il numero di non eventi) e si consente la complessità nella misura consentita dal contenuto delle informazioni dei dati (usando ad esempio gli eventi 15: 1: regola dei parametri di pollice). Pre-specificando un modello parametrico additivo flessibile si sbaglierà solo laddove conta omettendo interazioni importanti. Le interazioni dovrebbero essere pre-specificate, in generale.

Puoi verificare se la non linearità era necessaria nel modello con un test formale (semplificato con il rmspacchetto R ) ma rimuovendo tali termini quando insignificante crea le distorsioni inferenziali che ho descritto sopra.

Maggiori dettagli sono disponibili nelle note del corso collegate a http://biostat.mc.vanderbilt.edu/rms .


Ci scusiamo per non averlo menzionato prima, ma non ho familiarità con R e stavo usando SPSS per le analisi. Dalla soluzione fornita, significa che se utilizzo la dimensione effettiva del campione (15: 1), posso includere tutti i fattori importanti (dalla recensione) senza verificarne la linearità?
Sze Lin Tan,

Dalle analisi di regressione logistica univariabili che avevo fatto nel mio caso, l'IMC, la circonferenza del polpaccio, la circonferenza del braccio medio stanno tutti dando un contributo significativo al semplice modello di regressione logistica dello stato nutrizionale (p <0,05). Alla fine, però, non hanno soddisfatto il presupposto della linearità quando ho verificato il presupposto utilizzando l'approccio Box-Tidwell (per ciascun modello logistico semplice). Quindi non sono sicuro di dover procedere con l'analisi della regressione logistica multipla con questi predittori o meno.
Sze Lin Tan,

5
Non è valido costruire modelli sulla base di analisi univariabili. Stai usando una variante per inoltrare la regressione graduale che è nota per causare una serie di problemi.
Frank Harrell,

8

La regressione logistica NON assume una relazione lineare tra le variabili dipendenti e indipendenti. Presuppone una relazione lineare tra le probabilità del log della variabile dipendente e le variabili indipendenti (Questo è principalmente un problema con variabili indipendenti continue). Esiste un test chiamato Box-Tidwell che è possibile utilizzare per questo. Il comando stata è boxtid. Non conosco il comando SPSS, scusa.

Questo può essere di aiuto - http://www.ats.ucla.edu/stat/stata/webbooks/logistic/chapter3/statalog3.htm


Il collegamento è interrotto ora.
Alexey Shrub,

1

Penso che dovremmo tracciare variabili continue e verificare la linearità prima di usarle in un modello di regressione. Se la linearità sembra un presupposto ragionevole, penso che probabilmente continuerà a essere presente nel modello di regressione multivariabile finale nella maggior parte dei casi e, in caso contrario, penso che ciò potrebbe essere principalmente causato da effetti di interazione per i quali è possibile correggere.

Sì, la categorizzazione di variabili continue non lineari è un'opzione. Il problema è che le categorie possono nella maggior parte dei casi sembrare arbitrarie e che piccole differenze nei punteggi di cut-off tra le categorie possono portare a risultati diversi (soprattutto per quanto riguarda la significatività statistica) e, a seconda del numero di categorie e della dimensione dei dati , potresti perdere molte informazioni preziose nei dati.

Un approccio alternativo consiste nell'utilizzare un modello di additivo generalizzato che è un modello di regressione che può essere specificato come regressione logistica, ma in cui è possibile includere variabili indipendenti non lineari come "funzioni più fluide". Tecnicamente, questo non è molto complicato in R, ma non conosco altri pacchetti software. Questi modelli identificheranno le relazioni non lineari con le variabili dipendenti, ma uno svantaggio potrebbe essere che non otterrai numeri ordinati e ordinati nell'output da presentare, ma piuttosto una curva visiva che viene testata per il significato statistico. Quindi dipende da quanto sei interessato a quantificare l'effetto della variabile non lineare sulla variabile di risultato.

Infine, è possibile utilizzare modelli di additivi generalizzati come descritto sopra per testare le ipotesi di linearità nel modello di regressione logistica, almeno se si utilizza R.

Dai un'occhiata a questo libro (un campo molto diverso dal tuo e dal mio, ma non importa affatto): http://www.amazon.com/Effects-Extensions-Ecology-Statistics-Biology/dp/0387874577 / ref = sr_1_1? ie = UTF8 & qid = 1.440.928,328 mila & sr = 8-1 = & parole chiave zuur + ecologia


Non ho familiarità con R e stavo usando SPSS per le analisi. Ci scusiamo per non averlo menzionato prima. Posso usare l'approccio Box-Tidwell (creando un termine di interazione tra variabile continua e il suo log naturale e aggiungendo il termine di interazione al modello) per verificare l'assunto di linearità?
Sze Lin Tan,

1

Dal momento che non conosco i tuoi dati, non so se combinare queste tre variabili - la variabile di base, il suo registro naturale e un termine interattivo - sarà un problema. Tuttavia, so che in passato, quando ho considerato la combinazione di tre termini, spesso perdo la traccia concettuale di ciò che sto misurando. Devi avere una buona conoscenza di ciò che stai misurando o avrai difficoltà a spiegare i risultati. Spero possa aiutare!

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.