sfondo:
in xgboost le tenta iterazione montare un albero f t su tutte le n esempi che minimizza la seguente obiettivo:
dove sono primo ordine e derivati secondo ordine oltre la nostra precedente stima migliore y (da iterazione t - 1 ):
e è la nostra funzione di perdita.
La domanda (finalmente):
Quando costruiscono e prendono in considerazione una caratteristica specifica k in una divisione specifica, usano la seguente euristica per valutare solo alcuni candidati alla divisione: Ordinano tutti gli esempi in base alla loro x k , passano sulla lista ordinata e sommano la loro seconda derivata h i . Considerano un candidato diviso solo quando la somma cambia più di ϵ . Perché???
La spiegazione che mi danno mi sfugge:
Dicono che possiamo riscrivere l'equazione precedente in questo modo:
e non riesco a seguire l'algebra: puoi mostrare perché è uguale?
E poi affermano che "questa è esattamente una perdita quadrata ponderata con etichette e pesi h i " - un'affermazione con cui sono d'accordo, ma non capisco come si collega all'algoritmo split candidate che stanno usando. ..
Grazie e scusa se è troppo lungo per questo forum.