Sebbene questa domanda e la sua prima risposta sembrano concentrarsi su questioni teoriche della calibrazione del modello di regressione logistica, la questione di:
Come si potrebbe rovinare la calibrazione di una regressione logistica ...?
merita una certa attenzione rispetto alle applicazioni del mondo reale, per i futuri lettori di questa pagina. Non dovremmo dimenticare che il modello di regressione logistica deve essere ben specificato e che questo problema può essere particolarmente problematico per la regressione logistica.
In primo luogo, se le probabilità del log dell'appartenenza alla classe non sono linearmente correlate ai predittori inclusi nel modello, allora non saranno ben calibrate. Il capitolo 10 di Harrell sulla regressione logistica binaria dedica circa 20 pagine a "Valutazione dell'adattamento del modello" in modo che si possa trarre vantaggio dalla "imparzialità asintotica dello stimatore della massima verosimiglianza", come ha messo in pratica @whuber.
In secondo luogo, la specifica del modello è un problema particolare nella regressione logistica, in quanto ha una propensione intrinseca omessa che può essere sorprendente per coloro che hanno un background nella regressione lineare ordinaria. Come dice quella pagina:
Le variabili omesse distorcono i coefficienti sulle variabili incluse anche se le variabili omesse non sono correlate con le variabili incluse.
La pagina contiene anche un'utile spiegazione del motivo per cui ci si aspetta questo comportamento, con una spiegazione teorica per modelli probit correlati, analiticamente trattabili. Quindi, a meno che tu non sappia di aver incluso tutti i predittori relativi all'appartenenza alla classe, potresti incorrere in pericoli di errata specificazione e scarsa calibrazione nella pratica.
Per quanto riguarda le specifiche del modello, è del tutto possibile che metodi basati su alberi come la foresta casuale, che non assumono linearità su un intero intervallo di valori predittivi e forniscano intrinsecamente la possibilità di trovare e includere interazioni tra predittori, finiranno con un migliore- modello calibrato in pratica di un modello di regressione logistica che non tiene sufficientemente conto dei termini di interazione o di non linearità. Per quanto riguarda la distorsione da variabili omesse, non mi è chiaro se un metodo per valutare le probabilità di appartenenza alla classe possa affrontare adeguatamente tale questione.