Perché la regressione logistica produce modelli ben calibrati?


13

Comprendo che uno dei motivi per cui la regressione logistica viene spesso utilizzato per prevedere le percentuali di clic sul Web è che produce modelli ben calibrati. C'è una buona spiegazione matematica per questo?


2
regressione logistica effettuata per prevedere le probabilità -> che portano a previsioni calibrate se non in forma. mentre la maggior parte dei modelli di apprendimento automatico non prevedono le probabilità, ma piuttosto una classe - e c'è qualche contorsione tra le pseudo-probabiliti derivate da queste previsioni -> quindi nota ben calibrata
charles

2
Avrei dovuto chiarire la domanda, ma la mia domanda era più sul perché LR è così utile per prevedere le probabilità.
lsankar4033,

Vale la pena notare che è possibile semplicemente adattare una regressione logistica all'output di un classificatore scarsamente calibrato per ottenere un modello calibrato. Questo si chiama Platt Scaling en.wikipedia.org/wiki/Platt_scaling
generic_user

Risposte:


14

Sì.

Il vettore di probabilità previsto dalla regressione logistica soddisfa l'equazione della matricep

Xt(p-y)=0

Dove è la matrice di progettazione e y è il vettore di risposta. Questo può essere visto come un insieme di equazioni lineari, quella derivante da ciascuna colonna della matrice disegno X .XyX

Specializzata nella colonna di intercettazione (che è una riga nella matrice trasposta), l'equazione lineare associata è

Σio(pio-yio)=0

quindi la probabilità media complessiva prevista è uguale alla media della risposta.

Più in generale, per una colonna di funzione binaria , l'equazione lineare associata èXioj

ΣioXioj(pio-yio)=Σio|Xioj=1(pio-yio)=0

quindi la somma (e quindi la media) delle probabilità previste è uguale alla somma della risposta, anche quando è specializzata in quei record per i quali .Xioj=1


1
@MatthewDrury come posso interpretare la tua prima equazione? è della forma 1 / ( 1 + exp ( - x ) ) ? Tuttavia questa relazione lineare vale? Grazie! p1/(1+exp(-X))
Ric

1
Sì, p ha questa forma. La prima equazione deriva dall'impostazione della derivata della funzione di perdita su zero.
Matthew Drury,

1
Questo riguarda solo la calibrazione in grande che non è ciò che vogliamo: calibrazione in piccolo.
Frank Harrell,

1
@FrankHarrell Vuoi elaborare? Non ho mai sentito quei termini prima.
Matthew Drury,

3
C'è una lunga storia nella letteratura sulle previsioni di probabilità risalente al Servizio meteorologico degli Stati Uniti del 1950 - è qui che il punteggio di Brier è stato il primo utilizzo. Calibrazione nel piccolo significa che se esaminati i rischi previsti di 0,01, 0,02, ..., 0,99, ognuno di questi è accurato, cioè per tutte le volte in cui il rischio previsto era 0,4, il risultato si è verificato circa 0,4 di il tempo. Chiamo "calibrazione nel minuscolo" il passo successivo: per i maschi in cui la previsione era 0,4 era il risultato presente 0,4 volte, quindi per le femmine.
Frank Harrell,

2

Penso di poterti fornire una spiegazione di facile comprensione come segue:

Noi sappiamo che la sua funzione di perdita può essere espresso come la seguente funzione:

J(θ)=-1mΣio=1m[y(io)log(hθ(X(io)))+(1-y(io))log(1-hθ(X(io)))]

Dovemrappresenta il numero di tutti i campioni di addestramento,y(io) l'etichetta del campione,hθ(X(io)) probabilità prevista del campione ith:11+exp[-α-ΣjθjXj(io)] . (nota il pregiudizioαqui)

Poiché l'obiettivo dell'allenamento è minimizzare la funzione di perdita, valutiamo la sua derivata parziale rispetto a ciascun parametro θj (la derivazione dettagliata può essere trovata qui ):

J(θ)θj=1mΣio=1m[hθ(X(io))-y(io)]Xj(io)

E impostandolo su zero yeils:
Σio=1mhθ(X(io))Xj(io)=Σio=1my(io)Xj(io)

Ciò significa che se il modello è completamente addestrato, le probabilità previste che otteniamo per l'insieme di addestramento si distribuiscono in modo tale che per ogni caratteristica la somma dei valori ponderati (tutti) di quella caratteristica sia uguale alla somma dei valori di quella caratteristica dei campioni positivi.

Quanto sopra si adatta a tutte le funzionalità così come il bias α . Impostazione X0 come 1 e α come θ0 anni:

Σio=1mhθ(X(io))X0(io)=Σio=1my(io)X0(io)
Σio=1mhθ(X(io))=Σio=1my(io)
hθ(X(io))
Σio=1mp(io)=Σio=1my(io)

Ovviamente possiamo vedere che la regressione logistica è ben calibrata.

Riferimento: modelli log-lineari e campi casuali condizionali di Charles Elkan

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.