Quindi sto lavorando con i modelli di regressione logistica in R. Anche se sono ancora nuovo nelle statistiche, mi sento come se avessi un po 'di comprensione per i modelli di regressione, ma c'è ancora qualcosa che mi disturba:
Guardando l'immagine collegata, vedi il riepilogo delle stampe R per un modello di esempio che ho creato. Il modello sta tentando di prevedere se un'e-mail nel set di dati verrà rifondata o meno (variabile binaria isRefound
) e il set di dati contiene due variabili strettamente correlate isRefound
, vale a dire next24
e next7days
- anche queste sono binarie e indicano se si farà clic su una posta nel prossimo 24 ore / 7 giorni successivi dal punto corrente nei registri.
L'alto valore p dovrebbe indicare che l'impatto di questa variabile sulla previsione del modello è piuttosto casuale, no? Sulla base di ciò, non capisco perché la precisione delle previsioni dei modelli scenda al di sotto del 10% quando queste due variabili vengono escluse dalla formula di calcolo. Se queste variabili mostrano un significato così basso, perché rimuoverle dal modello ha un impatto così grande?
Cordiali saluti e grazie in anticipo, Rickyfox
MODIFICARE:
Per prima cosa ho rimosso solo next24, il che dovrebbe produrre un basso impatto perché il suo coef è piuttosto piccolo. Come previsto, poco è cambiato - non caricherò una foto per quello.
La rimozione dei prossimi 7 giorni ha avuto un grande impatto sul modello: AIC 200k in alto, precisione fino al 16% e richiamo fino al 73%
isRefound ~ day + next24
e omettessi tutte le altre variabili?