Questa probabilmente non è una buona cosa da fare. Osservare prima tutte le singole covariate, quindi costruire un modello con quelli significativi è logicamente equivalente a una procedura di ricerca automatica. Sebbene questo approccio sia intuitivo, le inferenze fatte da questa procedura non sono valide (ad esempio, i valori p reali sono diversi da quelli riportati dal software). Il problema è amplificato tanto più grande è la dimensione dell'insieme iniziale di covariate. Se lo fai comunque (e, sfortunatamente, molte persone lo fanno), non puoi prendere sul serio il modello risultante. Invece, è necessario eseguire uno studio completamente nuovo, raccogliendo un campione indipendente e adattando il modello precedente, per testarlo. Tuttavia, ciò richiede molte risorse e, inoltre, poiché il processo è imperfetto e il modello precedente è probabilmente scadente,sprecare molte risorse.
Un modo migliore è valutare modelli di sostanziale interesse per te. Quindi utilizzare un criterio informativo che penalizzi la flessibilità del modello (come l'AIC) per giudicare tra tali modelli. Per la regressione logistica, l'AIC è:
AIC=−2×ln(likelihood)+2k
dove k è il numero di covariate incluse in quel modello. Volete il modello con il valore più piccolo per l'AIC, a parità di condizioni. Tuttavia, non è sempre così semplice; diffidare quando diversi modelli hanno valori simili per l'AIC, anche se uno potrebbe essere il più basso.
Includo qui la formula completa per l'AIC, perché software diverso genera informazioni diverse. Potrebbe essere necessario calcolarlo solo dalla probabilità, oppure potresti ottenere l'AIC finale o qualsiasi altra via di mezzo.