Trasforma le variabili continue per la regressione logistica


11

Ho grandi dati di rilievo, una variabile di risultato binaria e molte variabili esplicative tra cui binarie e continue. Sto costruendo set di modelli (sperimentando sia GLM che GLM misto) e usando approcci teorici per selezionare il modello di punta. Ho esaminato attentamente le spiegazioni (sia continue che categoriche) per le correlazioni e sto usando solo quelle dello stesso modello che hanno un coef Pearson o Phicorr inferiore a 0,3. Vorrei dare a tutte le mie variabili continue una buona possibilità di competere per il modello di punta. Nella mia esperienza, trasformare quelli che ne hanno bisogno in base all'inclinazione migliora il modello a cui partecipano (AIC inferiore).

La mia prima domanda è: è questo miglioramento perché la trasformazione migliora la linearità con il logit? O la correzione dell'inclinazione migliora in qualche modo l'equilibrio delle variabili esplicative rendendo i dati più simmetrici? Vorrei aver capito le ragioni matematiche alla base di questo, ma per ora, se qualcuno potesse spiegarlo in termini semplici, sarebbe fantastico. Se hai qualche riferimento che potrei usare, lo apprezzerei molto.

Molti siti internet affermano che, poiché la normalità non è un presupposto della regressione logistica binaria, non trasforma le variabili. Ma ritengo che non trasformando le mie variabili ne lasci alcune in svantaggio rispetto ad altre e ciò potrebbe influire sul modello principale e modificare l'inferenza (beh, di solito non lo fa, ma in alcuni set di dati lo fa). Alcune delle mie variabili funzionano meglio quando il log viene trasformato, altre al quadrato (diversa direzione di inclinazione) e altre non trasformate.

Qualcuno potrebbe darmi una linea guida su cosa prestare attenzione quando si trasformano le variabili esplicative per la regressione logistica e, se non lo si fa, perché no?


2
FF110P(Y=1|β,X)=F(Xβ)questo documento .

Sebbene scritto in un contesto diverso, gran parte di ciò che stai chiedendo è nella mia risposta (o nei link nella mia risposta) qui: Normalmente X e Y distribuiti hanno maggiori probabilità di provocare residui normalmente distribuiti?
gung - Ripristina Monica

Risposte:


3

xlog(x)

Dato che dici di avere "dati di grandi dimensioni", puoi esaminare le spline, per consentire ai dati di parlare delle trasformazioni ... per esempio, pacchetto mgcv in R. Ma anche usando tale tecnologia (o altri metodi per cercare automaticamente le trasformazioni), il test finale è chiedersi cosa abbia un senso scientifico . ¿Cosa fanno le altre persone nel tuo campo con dati simili?


Grazie per il supporto delle mie preoccupazioni: anzi, ho pensato a cosa abbia un senso biologico. Il problema è che in realtà ho due set di dati correlati e vorrei trarre conclusioni da entrambi contemporaneamente. Ma in un sottoinsieme, la variabile di densità è la migliore nei modelli non trasformati, mentre nell'altra trasformazione del registro è la migliore. La trasformazione dei log migliora la relazione nel set di dati che ha i valori più bassi per quella variabile, quindi sarà molto difficile riconciliare questi due set di dati, a meno che non lasci la variabile non trasformata in entrambi.
Zsuzsa,

1
Gli esperti in un campo raramente sono in grado di conoscere apriori le trasformazioni "giuste" per le variabili. Non vedo quasi mai relazioni lineari, quindi quando le dimensioni del campione lo giustificano, rilasso questa ipotesi usando spline di regressione. Rendo il risultato interpretabile con le immagini.
Frank Harrell,

3

Il problema critico è quali sono i numeri che dovrebbero rappresentare nel mondo reale e qual è la relazione ipotizzata tra tali variabili e la variabile dipendente. Puoi migliorare il tuo modello "pulendo" i tuoi dati, ma se non rispecchiano meglio il mondo reale non hai avuto successo. Forse le distribuzioni dei tuoi dati significano che il tuo approccio alla modellazione è errato e hai bisogno di un approccio completamente diverso, forse i tuoi dati hanno problemi.

Perché rimuovete le variabili se hanno corr> .3 è oltre me. Forse quelle cose sono davvero correlate ed entrambe sono importanti per la variabile dipendente. Puoi gestirlo con un indice o una funzione che rappresenta il contributo congiunto di variabili correlate. Sembra che tu stia lanciando alla cieca informazioni basate su criteri statistici arbitrari. Perché non usare corr> .31 o .33?

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.