Significato del valore p delle variabili del modello di regressione logistica

Quindi sto lavorando con i modelli di regressione logistica in R. Anche se sono ancora nuovo nelle statistiche, mi sento come se avessi un po 'di comprensione per i modelli di regressione, ma c'è ancora qualcosa che mi disturba:

Guardando l'immagine collegata, vedi il riepilogo delle stampe R per un modello di esempio che ho creato. Il modello sta tentando di prevedere se un'e-mail nel set di dati verrà rifondata o meno (variabile binaria isRefound) e il set di dati contiene due variabili strettamente correlate isRefound, vale a dire next24e next7days- anche queste sono binarie e indicano se si farà clic su una posta nel prossimo 24 ore / 7 giorni successivi dal punto corrente nei registri.

L'alto valore p dovrebbe indicare che l'impatto di questa variabile sulla previsione del modello è piuttosto casuale, no? Sulla base di ciò, non capisco perché la precisione delle previsioni dei modelli scenda al di sotto del 10% quando queste due variabili vengono escluse dalla formula di calcolo. Se queste variabili mostrano un significato così basso, perché rimuoverle dal modello ha un impatto così grande?

Cordiali saluti e grazie in anticipo, Rickyfox

inserisci qui la descrizione dell'immagine

MODIFICARE:

Per prima cosa ho rimosso solo next24, il che dovrebbe produrre un basso impatto perché il suo coef è piuttosto piccolo. Come previsto, poco è cambiato - non caricherò una foto per quello.

La rimozione dei prossimi 7 giorni ha avuto un grande impatto sul modello: AIC 200k in alto, precisione fino al 16% e richiamo fino al 73%

inserisci qui la descrizione dell'immagine

— deemel
fonte

E se avessi isRefound ~ day + next24e omettessi tutte le altre variabili?

— smillig,

Fondamentalmente, sembra che tu abbia un problema di multicollinearità. C'è molto materiale disponibile su questo, a partire da questo sito Web o su Wikipedia.

In breve, i due predittori sembrano essere realmente correlati al tuo risultato, ma probabilmente sono anche altamente correlati tra loro (nota che con più di due variabili, è ancora possibile avere problemi di multicollinearità senza forti correlazioni bivariate). Questo ovviamente ha molto senso: tutte le e-mail cliccate entro 24 ore sono state anche cliccate entro 7 giorni (per definizione) e la maggior parte delle e-mail probabilmente non sono state cliccate affatto (non in 24 ore e non in 7 giorni).

Un modo che questo mostra nell'output che hai presentato è attraverso gli errori / CI standard incredibilmente grandi per i coefficienti pertinenti (a giudicare dal fatto che stai usando bigglm e che anche i coefficienti minuscoli sono altamente significativi, sembra che la dimensione del tuo campione dovrebbe essere più che sufficiente per ottenere buone stime). Altre cose che puoi fare per rilevare questo tipo di problemi: osserva le correlazioni a coppie, rimuovi solo una delle variabili sospette (come suggerito da @Nick Sabbe), verifica congiuntamente il significato di entrambe le variabili.

Più in generale, valori p elevati non significano che l'effetto sia piccolo o casuale, ma solo che non ci sono prove che il coefficiente sia diverso da 0. Può anche essere molto grande, semplicemente non lo sai (sia perché il campione la dimensione è troppo piccola o perché c'è qualche altro problema con il modello).

— Gala
fonte

Nota che il nuovo output che hai pubblicato suggerisce che potrebbero essere coinvolte anche alcune altre variabili (o che c'è un altro problema che non ho visto) perché altrimenti ti aspetteresti che la SE sia molto più bassa quando viene inclusa solo una delle due variabili .

— Galà,

Sì, l'ho già notato, ma grazie. Farò una modifica in un secondo momento per farti sapere cosa potrebbe aver causato questo problema se ti interessa

— decidi il