Ho grandi dati di rilievo, una variabile di risultato binaria e molte variabili esplicative tra cui binarie e continue. Sto costruendo set di modelli (sperimentando sia GLM che GLM misto) e usando approcci teorici per selezionare il modello di punta. Ho esaminato attentamente le spiegazioni (sia continue che categoriche) per le correlazioni e sto usando solo quelle dello stesso modello che hanno un coef Pearson o Phicorr inferiore a 0,3. Vorrei dare a tutte le mie variabili continue una buona possibilità di competere per il modello di punta. Nella mia esperienza, trasformare quelli che ne hanno bisogno in base all'inclinazione migliora il modello a cui partecipano (AIC inferiore).
La mia prima domanda è: è questo miglioramento perché la trasformazione migliora la linearità con il logit? O la correzione dell'inclinazione migliora in qualche modo l'equilibrio delle variabili esplicative rendendo i dati più simmetrici? Vorrei aver capito le ragioni matematiche alla base di questo, ma per ora, se qualcuno potesse spiegarlo in termini semplici, sarebbe fantastico. Se hai qualche riferimento che potrei usare, lo apprezzerei molto.
Molti siti internet affermano che, poiché la normalità non è un presupposto della regressione logistica binaria, non trasforma le variabili. Ma ritengo che non trasformando le mie variabili ne lasci alcune in svantaggio rispetto ad altre e ciò potrebbe influire sul modello principale e modificare l'inferenza (beh, di solito non lo fa, ma in alcuni set di dati lo fa). Alcune delle mie variabili funzionano meglio quando il log viene trasformato, altre al quadrato (diversa direzione di inclinazione) e altre non trasformate.
Qualcuno potrebbe darmi una linea guida su cosa prestare attenzione quando si trasformano le variabili esplicative per la regressione logistica e, se non lo si fa, perché no?