Hai bisogno di aiuto per comprendere la proposta di punti di divisione approssimativi di xgboost

12

sfondo:

in xgboost le tenta iterazione montare un albero su tutte le esempi che minimizza la seguente obiettivo: $t$ $f_t$ $n$

\sum_{i = 1}^{n} [g_{i} f_{t} (x_{i}) + \frac{1}{2} h_{i} f_{t}^{2} (x_{i})]

$\sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)]$

dove sono primo ordine e derivati secondo ordine oltre la nostra precedente stima migliore (da iterazione ): $g_i, h_i$ $\hat{y}$ $t-1$

$g_i=d_{\hat{y}}l(y_i, \hat{y})$
$h_i=d^2_{\hat{y}}l(y_i, \hat{y})$

e è la nostra funzione di perdita. $l$

La domanda (finalmente):

Quando costruiscono e prendono in considerazione una caratteristica specifica in una divisione specifica, usano la seguente euristica per valutare solo alcuni candidati alla divisione: Ordinano tutti gli esempi in base alla loro , passano sulla lista ordinata e sommano la loro seconda derivata . Considerano un candidato diviso solo quando la somma cambia più di . Perché??? $f_t$ $k$ $x_k$ $h_i$ $\epsilon$

La spiegazione che mi danno mi sfugge:

Dicono che possiamo riscrivere l'equazione precedente in questo modo:

\sum_{i = 1}^{n} \frac{1}{2} h_{i} [f_{t} (x_{i}) - g_{i} / h_{i}]^{2} + c o n s t a n t

$\sum_{i=1}^n\frac{1}{2}h_i[f_t(x_i) - g_i/h_i]^2 + constant$

e non riesco a seguire l'algebra: puoi mostrare perché è uguale?

E poi affermano che "questa è esattamente una perdita quadrata ponderata con etichette e pesi " - un'affermazione con cui sono d'accordo, ma non capisco come si collega all'algoritmo split candidate che stanno usando. .. $gi/hi$ $h_i$

Grazie e scusa se è troppo lungo per questo forum.

xgboost gbm

— ihadanny
fonte

8

Non entrerò nei dettagli, ma quanto segue dovrebbe aiutarti a cogliere l'idea.

Usano i quantili (Wikipedia) per determinare dove dividere. Se hai 100 possibili punti di divisione, (ordinati), puoi provare i punti di divisione -quantiles e avere già una buona approssimazione. Questo è ciò che sta facendo il parametro . Considerano un punto di divisione quando la divisione ha più punti al di sotto dell'ultimo punto di divisione. Se $\{x_1, \cdots, x_{100}\}$ $10$ $\{x_{10}, x_{20}, \cdots, x_{90}\}$ $\epsilon$ $\sim \epsilon N$ $\epsilon = 0.01$ finirai con punti di divisione, essendo maggiore di $\sim 100$ degli altri punti. Non considerano una nuova divisione quando "la somma cambia più di " ma quando il numero di punti sotto il punto corrente è maggiore di rispetto all'ultima. $\{1\%, 2\%, ..., 99\%\}$ $\epsilon$ $\epsilon$

Ora, se hai molti punti continui che sono già ben classificati, potrebbe essere inutile dividere tra loro. Vuoi dividere le parti del tuo set di dati che sono molto sbagliate, quelle che sono difficili da imparare. Per fare ciò, usano quantili ponderati. Questo è dove i pesi svolgono un ruolo. Il primo -quantile non sarà il primo punto che è maggiore del dei punti, ma il primo punto che è maggiore del dei pesi. $10$ $10\%$ $10\%$

— Winks
fonte

Ho effettuato l'accesso per darti un voto positivo. Grazie per una spiegazione di facile comprensione.

— Pakpoom Tiwakornkit,

3

Basta aggiungere la parte algebrica alla risposta di @Winks:

La seconda equazione dovrebbe avere il segno invertito, come in:

\sum_{i = 1}^{n} \frac{1}{2} h_{i} [f_{t} (x_{i}) - (- g_{i} / h_{i})]^{2} + c o n s t a n t = \sum_{i = 1}^{n} \frac{1}{2} h_{i} [f_{t}^{2} (x_{i}) + 2 \frac{f_{t} (x_{i}) g_{i}}{h_{i}} + (g_{i} / h_{i})^{2}] = \sum_{i = 1}^{n} [g_{i} f_{t} (x_{i}) + \frac{1}{2} h_{i} f_{t}^{2} (x_{i}) + \frac{g i^{2}}{2 h_{i}}]

$\sum_{i=1}^n\frac{1}{2}h_i[f_t(x_i) - (-g_i/h_i)]^2 + constant = \sum_{i=1}^n\frac{1}{2}h_i[f_t^2(x_i) + 2\frac{f_t(x_i)g_i}{h_i} + (g_i/h_i)^2] = \sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i) + \frac{gi^2}{2h_i}]$

The last term is indeed constant: remember that the $g_i$ and $h_i$ are determined by the previous iteration, so they're constant when trying to set $f_t$ .

So, now we can claim "this is exactly weighted squared loss with labels $-gi/hi$ and weights $h_i$ "

Credit goes to Yaron and Avi from my team for explaining me this.

— ihadanny
fonte

0

And then they claim that "this is exactly weighted squared loss with labels gi/higi/hi and weights hihi" - a statement I agree with, but I don't understand how does it relate to the split candidate algorithm they are using...

If there is only one sample, and you are optimizing the $w$ at $t-t_h$ iteration, it is easy to see that the value would be $w* = -gi/hi$ , explaining $(ft - -(gi/hi))^2$
Now you have an entire data set. In a case where the loss function has a identical second derivative, the $w*$ would become $-avg(gi)/const$ instead of $-sigma(gi)/sigma(hi)$ . I wrote it in this way because in that case, the $w*$ would be irrelevant to the difference of $hi$ among samples, since there is no difference. However, in reality, when keeping $gi$ unchanged, the $w*$ fluctuates with distribution of $hi$ .

I think it explains why it works as it is weighted by $hi$ .

— xy.Z
fonte