Perché la regressione logistica produce modelli ben calibrati?

Comprendo che uno dei motivi per cui la regressione logistica viene spesso utilizzato per prevedere le percentuali di clic sul Web è che produce modelli ben calibrati. C'è una buona spiegazione matematica per questo?

regression logistic

— lsankar4033
fonte

regressione logistica effettuata per prevedere le probabilità -> che portano a previsioni calibrate se non in forma. mentre la maggior parte dei modelli di apprendimento automatico non prevedono le probabilità, ma piuttosto una classe - e c'è qualche contorsione tra le pseudo-probabiliti derivate da queste previsioni -> quindi nota ben calibrata

— charles

Avrei dovuto chiarire la domanda, ma la mia domanda era più sul perché LR è così utile per prevedere le probabilità.

— lsankar4033,

Vale la pena notare che è possibile semplicemente adattare una regressione logistica all'output di un classificatore scarsamente calibrato per ottenere un modello calibrato. Questo si chiama Platt Scaling en.wikipedia.org/wiki/Platt_scaling

— generic_user

Risposte:

Sì.

Il vettore di probabilità previsto dalla regressione logistica soddisfa l'equazione della matrice $p$

X^{t} (p - y) = 0

$X^t(p - y) = 0$

Dove è la matrice di progettazione e è il vettore di risposta. Questo può essere visto come un insieme di equazioni lineari, quella derivante da ciascuna colonna della matrice disegno . $X$ $y$ $X$

Specializzata nella colonna di intercettazione (che è una riga nella matrice trasposta), l'equazione lineare associata è

\underset{io}{Σ} (p_{io} - y_{io}) = 0

$\sum_i( p_i - y_i) = 0$

quindi la probabilità media complessiva prevista è uguale alla media della risposta.

Più in generale, per una colonna di funzione binaria , l'equazione lineare associata è $x_{ij}$

\underset{io}{Σ} X_{io j} (p_{io} - y_{io}) = \underset{io | X_{io j} = 1}{Σ} (p_{io} - y_{io}) = 0

$\sum_i x_{ij}(p_i - y_i) = \sum_{i \mid x_{ij} = 1}(p_i - y_i) = 0$

quindi la somma (e quindi la media) delle probabilità previste è uguale alla somma della risposta, anche quando è specializzata in quei record per i quali . $x_{ij} = 1$

— Matthew Drury
fonte

@MatthewDrury come posso interpretare la tua prima equazione? è

della forma

? Tuttavia questa relazione lineare vale? Grazie!

p

$p$

1 / (1 + \exp (- x))

$1/(1+\exp(-x))$

— Ric

Sì, p ha questa forma. La prima equazione deriva dall'impostazione della derivata della funzione di perdita su zero.

— Matthew Drury,

Questo riguarda solo la calibrazione in grande che non è ciò che vogliamo: calibrazione in piccolo.

— Frank Harrell,

@FrankHarrell Vuoi elaborare? Non ho mai sentito quei termini prima.

— Matthew Drury,

C'è una lunga storia nella letteratura sulle previsioni di probabilità risalente al Servizio meteorologico degli Stati Uniti del 1950 - è qui che il punteggio di Brier è stato il primo utilizzo. Calibrazione nel piccolo significa che se esaminati i rischi previsti di 0,01, 0,02, ..., 0,99, ognuno di questi è accurato, cioè per tutte le volte in cui il rischio previsto era 0,4, il risultato si è verificato circa 0,4 di il tempo. Chiamo "calibrazione nel minuscolo" il passo successivo: per i maschi in cui la previsione era 0,4 era il risultato presente 0,4 volte, quindi per le femmine.

— Frank Harrell,

Penso di poterti fornire una spiegazione di facile comprensione come segue:

Noi sappiamo che la sua funzione di perdita può essere espresso come la seguente funzione:

J (θ) = - \frac{1}{m} Σ_{io = 1}^{m} [y^{(io)} \log (h_{θ} (X^{(io)})) + (1 - y^{(io)}) \log (1 - h_{θ} (X^{(io)}))]

$J(\theta) = -\frac{1}{m}\sum_{i=1}^m \left[ y^{(i)}\log\left(h_\theta \left(x^{(i)}\right)\right) + (1 -y^{(i)})\log\left(1-h_\theta \left(x^{(i)}\right)\right)\right]$
Dovemrappresenta il numero di tutti i campioni di addestramento,

y^{(i)}

$y^{(i)}$ l'etichetta del campione,

h_{θ} (x^{(i)})

$h_{\theta}(x^{(i)})$ probabilità prevista del campione ith:

\frac{1}{1 + \exp [- α - \sum_{j} θ_{j} x_{j}^{(i)}]}

$\frac{1}{1+\exp[-\alpha -\sum_j \theta_j x^{(i)}_j]}$ . (nota il pregiudizio

α

$\alpha$ qui)

Poiché l'obiettivo dell'allenamento è minimizzare la funzione di perdita, valutiamo la sua derivata parziale rispetto a ciascun parametro $\theta_j$ (la derivazione dettagliata può essere trovata qui ):

\frac{\partial J (θ)}{\partial θ_{j}} = \frac{1}{m} Σ_{io = 1}^{m} [h_{θ} (X^{(io)}) - y^{(io)}] X_{j}^{(io)}

$\frac{\partial J(\theta)}{\partial \theta_j}=\frac{1}{m}\sum_{i=1}^m\left[h_\theta\left(x^{(i)}\right)-y^{(i)}\right]\,x_j^{(i)}$
E impostandolo su zero yeils:

Σ_{io = 1}^{m} h_{θ} (X^{(io)}) X_{j}^{(io)} = Σ_{io = 1}^{m} y^{(io)} X_{j}^{(io)}

$\sum_{i=1}^m h_\theta\left(x^{(i)}\right)x_j^{(i)}=\sum_{i=1}^m y^{(i)}\,x_j^{(i)}$

Ciò significa che se il modello è completamente addestrato, le probabilità previste che otteniamo per l'insieme di addestramento si distribuiscono in modo tale che per ogni caratteristica la somma dei valori ponderati (tutti) di quella caratteristica sia uguale alla somma dei valori di quella caratteristica dei campioni positivi.

Quanto sopra si adatta a tutte le funzionalità così come il bias $\alpha$ . Impostazione $x_0$ come 1 e $\alpha$ come $\theta_0$ anni:

Σ_{io = 1}^{m} h_{θ} (X^{(io)}) X_{0}^{(io)} = Σ_{io = 1}^{m} y^{(io)} X_{0}^{(io)}

$\sum_{i=1}^m h_\theta\left(x^{(i)}\right)x_0^{(i)}=\sum_{i=1}^m y^{(i)}\,x_0^{(i)}$

Σ_{io = 1}^{m} h_{θ} (X^{(io)}) = Σ_{io = 1}^{m} y^{(io)}

$\sum_{i=1}^m h_\theta\left(x^{(i)}\right)=\sum_{i=1}^m y^{(i)}$

h_{θ} (x^{(i)})

$h_\theta\left(x^{(i)}\right)$

Σ_{io = 1}^{m} p^{(io)} = Σ_{io = 1}^{m} y^{(io)}

$\sum_{i=1}^m p^{(i)} =\sum_{i=1}^m y^{(i)}$

Ovviamente possiamo vedere che la regressione logistica è ben calibrata.

Riferimento: modelli log-lineari e campi casuali condizionali di Charles Elkan

— Lerner Zhang
fonte