Quindi sto lavorando con i modelli di regressione logistica in R. Anche se sono ancora nuovo nelle statistiche, mi sento come se avessi un po 'di comprensione per i modelli di regressione, ma c'è ancora qualcosa che mi disturba:
Guardando l'immagine collegata, vedi il riepilogo delle stampe R per un modello di esempio che ho creato. Il modello sta tentando di prevedere se un'e-mail nel set di dati verrà rifondata o meno (variabile binaria isRefound) e il set di dati contiene due variabili strettamente correlate isRefound, vale a dire next24e next7days- anche queste sono binarie e indicano se si farà clic su una posta nel prossimo 24 ore / 7 giorni successivi dal punto corrente nei registri.
L'alto valore p dovrebbe indicare che l'impatto di questa variabile sulla previsione del modello è piuttosto casuale, no? Sulla base di ciò, non capisco perché la precisione delle previsioni dei modelli scenda al di sotto del 10% quando queste due variabili vengono escluse dalla formula di calcolo. Se queste variabili mostrano un significato così basso, perché rimuoverle dal modello ha un impatto così grande?
Cordiali saluti e grazie in anticipo, Rickyfox

MODIFICARE:
Per prima cosa ho rimosso solo next24, il che dovrebbe produrre un basso impatto perché il suo coef è piuttosto piccolo. Come previsto, poco è cambiato - non caricherò una foto per quello.
La rimozione dei prossimi 7 giorni ha avuto un grande impatto sul modello: AIC 200k in alto, precisione fino al 16% e richiamo fino al 73%

isRefound ~ day + next24e omettessi tutte le altre variabili?