Classificazione con incremento gradiente: come mantenere la previsione in [0,1]

17

La domanda

Faccio fatica a capire come la previsione viene mantenuta entro l' intervallo quando si esegue la classificazione binaria con Gradient Boosting. $[0,1]$

Supponiamo di lavorare su un problema di classificazione binaria e la nostra funzione oggettiva è la perdita del log, , dove è la variabile target e è il nostro modello attuale. $-\sum y_i \log(H_m(x_i)) + (1-y_i) \log(1-H_m(x_i))$ $y$ $\in \{0,1\}$ $H$

Quando si allena il prossimo studente debole tale che il nostro nuovo modello sia , qual è il meccanismo che dovrebbe mantenere ? O, forse una domanda più pertinente, esiste un tale meccanismo? $h_i$ $H_i = H_{i-1} + h_i$ $H_i \in [0,1]$

Maggiori informazioni su cosa sto facendo

Sto cercando di implementare il potenziamento del gradiente, usando alberi di regressione. Quello che faccio per evitare è che moltiplica per un fattore , in modo tale che non scenda al di sotto di zero o al di sopra uno e seleziono la in questo intervallo che minimizza la funzione di perdita. $h_i$ $c \in [0,c_{\text{max}}]$ $H + c_{\text{max}}h$ $c$

Questo porta il seguente problema: dopo alcuni round, ho un punto che è perfettamente classificato e la migliore divisione disponibile per spingere il classificatore nella direzione del gradiente vuole spingere questo punto sopra uno, che mi assicuro non accada impostazione . Pertanto, tutte le iterazioni successive selezioneranno la stessa divisione e la stessa . $c = 0$ $c = 0$

Ho provato pratiche di regolarizzazione comuni

Diminuendo il tasso di apprendimento moltiplicando per . Questo ritarda solo il problema. $c$ $\mu = 0.01$
Sottocampionando lo spazio delle caratteristiche, ma alcuni punti sono molto facili da classificare, spuntano quasi tutte le caselle del "è un positivo?" forma, e quasi ogni "buona divisione" mostra questo comportamento.

Penso che questo non sia un problema di parametri, e ci dovrebbe essere un modo più sano per risolvere questo problema. Non sto scartando la possibilità che la mia implementazione venga interrotta, ma non ho trovato nulla che risolva questo problema.

Ciò che stiamo manipolando, nel contesto della perdita logistica, dovrebbe essere una probabilità, quindi come possiamo evitarlo?

La mia intuizione sarebbe quella di mettere il modello che stiamo costruendo, , in una funzione sigmoidea tale che sia limitato a , e immagino che funzionerebbe, ma voglio sapere se ci sono altre soluzioni. Poiché il potenziamento del gradiente sembra essere utilizzato con successo nelle attività di classificazione, dovrebbe esistere una soluzione "corretta" (cioè con giustificazione). $H$ $[0,1]$

logistic classification boosting

— Winks
fonte

Potresti richiedere che sia moltiplicativo, in quanto si comporta in modo aggiuntivo con gli altri tuoi esperti.

H

$H$

\ln (H)

$\ln(H)$

— Alex R.

21

Mi piace pensarlo in analogia con il caso dei modelli lineari e della loro estensione ai GLM (modelli lineari generalizzati).

In un modello lineare, inseriamo una funzione lineare per prevedere la nostra risposta

\hat{y} = β_{0} + β_{1} x_{1} + \dots β_{n} x_{n}

$\hat y = \beta_0 + \beta_1 x_1 + \cdots \beta_n x_n$

Per generalizzare ad altre situazioni, introduciamo una funzione di collegamento, che trasforma la parte lineare del modello sulla scala della risposta (tecnicamente si tratta di un collegamento inverso, ma penso che sia più facile pensarlo in questo modo, trasformando il predittore lineare in una risposta, piuttosto che trasformare la risposta in un predittore lineare).

Ad esempio, il modello logistico utilizza la funzione sigmoid (o logit)

\hat{y} = \frac{1}{1 + \exp (- (β_{0} + β_{1} x_{1} + \dots β_{n} x_{n}))}

$\hat y = \frac{1}{1 + \exp(-(\beta_0 + \beta_1 x_1 + \cdots \beta_n x_n))}$

e la regressione di Poisson usa una funzione esponenziale

\hat{y} = \exp (β_{0} + β_{1} x_{1} + \dots β_{n} x_{n})

$\hat y = \exp(\beta_0 + \beta_1 x_1 + \cdots \beta_n x_n)$

Per costruire un'analogia con il potenziamento del gradiente, sostituiamo la parte lineare di questi modelli con la somma degli alberi potenziati. Quindi, ad esempio, il caso gaussiano (analogo alla regressione lineare) diventa il noto

\hat{y} = \sum_{i} h_{i}

$\hat y = \sum_i h_i$

dove è la nostra sequenza di discenti deboli. Il caso binomiale è analogo alla regressione logistica (come notato nella risposta) $h_i$

\hat{y} = \frac{1}{1 + \exp (- \sum_{i} h_{i})}

$\hat y = \frac{1}{1 + \exp\left(-\sum_i h_i\right)}$

e il potenziamento del poisson è analogo alla regressione del poisson

\hat{y} = \exp (\sum_{i} h_{i})

$\hat y = \exp\left(\sum_i h_i\right)$

La domanda rimane: come si adattano questi modelli potenziati quando è coinvolta la funzione di collegamento? Per il caso gaussiano, in cui il collegamento è la funzione identitaria, il mantra spesso sentito di adattamento dei deboli studenti ai residui dell'attuale modello di lavoro funziona, ma questo non si generalizza ai modelli più complicati. Il trucco è scrivere la funzione di perdita minimizzata in funzione della parte lineare del modello (ovvero la parte della formulazione GLM). $\sum_i \beta_i x_i$

Ad esempio, la perdita binomiale si riscontra di solito come

\sum_{i} y_{i} \log (p_{i}) + (1 - y_{i}) \log (1 - p_{i})

$\sum_i y_i \log(p_i) + (1 - y_i)\log(1 - p_i)$

Qui, la perdita è una funzione di , i valori previsti sulla stessa scala della risposta e è una trasformazione non lineare del predittore lineare . Invece, possiamo come una funzione di , (in questo caso noto anche come quota di registro) $p_i$ $p_i$ $L_i$ $L_i$

\sum_{i} y_{i} L_{i} - \log (1 + \exp (L_{i}))

$\sum_i y_i L_i - \log(1 + \exp(L_i))$

Quindi possiamo prendere il gradiente di questo rispetto a e aumentare per minimizzare direttamente questa quantità. $L$

Solo alla fine, quando vogliamo produrre previsioni per l'utente, applichiamo la funzione di collegamento alla sequenza finale di studenti deboli per mettere le previsioni sulla stessa scala della risposta. Mentre montiamo il modello, lavoriamo internamente sulla scala lineare per tutto il tempo.

— Matthew Drury
fonte

2

Concordare con "scrivere la funzione di perdita minimizzata in funzione della parte lineare del modello". Ma penso che un modo semplice per capirlo senza derivare le probabilità del registro sia: per la parte lineare del modello, ovvero

, pensare alla funzione di perdita come

r \in (- \infty, \infty)

$r \in (-\infty, \infty)$

, e lo pseudo-residuo è solo per rendere la derivata della perdita wrt

.

- \sum_{i} (y_{i} \log \frac{1}{1 + e^{- r}} + (1 - y_{i}) \log (1 - \frac{1}{1 + e^{- r}}))

$- \sum_i \big( y_i \log \frac{1}{1+e^{-r}}+(1-y_i)\log ( 1 - \frac{1}{1+e^{-r}}) \big)$

r

$r$

— user2830451,

@ matthew-drury Puoi per favore aggiungere un po 'di luce sulla sezione multinomiale di classe K dello stesso algoritmo in cui un'idea simile viene estesa per funzionare per essa?

— MixCoded

6

Dopo alcune ricerche, sembra che il mio intuito e il commento di Alex R. siano giusti.

Per costruire un modello continuo con previsioni in , si può mettere il modello in una funzione logistica (Wikipedia) , in modo tale che per , abbiamo $[0,1]$ $H$ $H \in \mathbb{R}$ I passaggi di incremento del gradiente prendono quindi la derivata rispetto ae aggiornano il modello, come se la funzione logistica fosse parte della funzione di costo e funziona.

\frac{1}{1 + e^{- H}} \in [0, 1]

$\frac{1}{1 + e^{-H}} \in [0,1]$

H

$H$

Ciò è stato suggerito nel documento La regressione logistica additiva: una visione statistica di potenziamento , da parte di Friedman, Hastie e Tibshirani, per costruire LogitBoost (Wikipedia) , un adattamento di AdaBoost (Wikipedia) alla perdita logistica.

In termini molto basilari, se è possibile passare dalla regressione lineare alla regressione logistica mediante l'aggiunta di un sigmoide, funziona anche per convertire l'incremento della regressione in quello della classificazione.

— Winks
fonte