Perché la regressione logistica è ben calibrata e come rovinarne la calibrazione?


9

Nella scikit apprendono i documenti sulla calibrazione della probabilità che confrontano la regressione logistica con altri metodi e osservano che la foresta casuale è meno ben calibrata della regressione logistica.

Perché la regressione logistica è ben calibrata? Come si potrebbe rovinare la calibrazione di una regressione logistica (non quella che si vorrebbe mai - proprio come un esercizio)?

Risposte:


4

Sebbene questa domanda e la sua prima risposta sembrano concentrarsi su questioni teoriche della calibrazione del modello di regressione logistica, la questione di:

Come si potrebbe rovinare la calibrazione di una regressione logistica ...?

merita una certa attenzione rispetto alle applicazioni del mondo reale, per i futuri lettori di questa pagina. Non dovremmo dimenticare che il modello di regressione logistica deve essere ben specificato e che questo problema può essere particolarmente problematico per la regressione logistica.

In primo luogo, se le probabilità del log dell'appartenenza alla classe non sono linearmente correlate ai predittori inclusi nel modello, allora non saranno ben calibrate. Il capitolo 10 di Harrell sulla regressione logistica binaria dedica circa 20 pagine a "Valutazione dell'adattamento del modello" in modo che si possa trarre vantaggio dalla "imparzialità asintotica dello stimatore della massima verosimiglianza", come ha messo in pratica @whuber.

In secondo luogo, la specifica del modello è un problema particolare nella regressione logistica, in quanto ha una propensione intrinseca omessa che può essere sorprendente per coloro che hanno un background nella regressione lineare ordinaria. Come dice quella pagina:

Le variabili omesse distorcono i coefficienti sulle variabili incluse anche se le variabili omesse non sono correlate con le variabili incluse.

La pagina contiene anche un'utile spiegazione del motivo per cui ci si aspetta questo comportamento, con una spiegazione teorica per modelli probit correlati, analiticamente trattabili. Quindi, a meno che tu non sappia di aver incluso tutti i predittori relativi all'appartenenza alla classe, potresti incorrere in pericoli di errata specificazione e scarsa calibrazione nella pratica.

Per quanto riguarda le specifiche del modello, è del tutto possibile che metodi basati su alberi come la foresta casuale, che non assumono linearità su un intero intervallo di valori predittivi e forniscano intrinsecamente la possibilità di trovare e includere interazioni tra predittori, finiranno con un migliore- modello calibrato in pratica di un modello di regressione logistica che non tiene sufficientemente conto dei termini di interazione o di non linearità. Per quanto riguarda la distorsione da variabili omesse, non mi è chiaro se un metodo per valutare le probabilità di appartenenza alla classe possa affrontare adeguatamente tale questione.


5

πθ(X)θ

z~Ber(p)pzXXyioXioyio~Ber(π(Xio))πθπθπ*

L'uso di un modello di osservazione errato con la regressione logistica porterà a probabilità non calibrate. La modellazione di eventi binari con una distribuzione normale è inappropriata e non deve essere utilizzata in combinazione con la regressione logistica. La funzione di perdita corrispondente al normale modello di osservazione della distribuzione è l'errore quadratico medio. Pertanto, l'utilizzo di una perdita MSE ostacolerebbe sicuramente la sua calibrazione.


2
Attenta chiamata regressione logistica un metodo di classificazione su questo sito! Grazie per la risposta: sembra che tu stia insinuando che l'obiettivo di perdita del log sia il motivo della calibrazione (supponendo che il modello sia adeguatamente flessibile)?
user0

1
Un follow-up - dici che la calibrazione richiede una stima imparziale della probabilità - quindi la penalizzazione rovina la calibrazione?
user0

«LogisticRegression restituisce previsioni ben calibrate per impostazione predefinita in quanto ottimizza direttamente la perdita del registro» - scikit-learn.org/stable/modules/calibration.html
cortax

Per definizione, penalizzazione o regolarizzazione, è un'iniezione di pregiudizio che spesso cerca di ridurre la varianza dello stimatore. Un'enorme regolarizzazione può dominare la parte dei dati della funzione obiettivo e rovinare definitivamente la calibrazione.
cortax

2
La citazione di scikit-learn su "ottimizza la perdita di log" non è una spiegazione efficace, perché non esiste alcuna connessione necessaria tra questo ed essere imparziali. A meno che non mi sbagli, la risposta corretta alla domanda dovrà invocare l' imparzialità asintotica dello stimatore della massima verosimiglianza tipicamente usato nelle procedure di regressione logistica.
whuber
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.