Un popolare algoritmo di boosting e libreria software (sta per "extreme gradient boosting"). Il potenziamento combina modelli debolmente predittivi in un modello fortemente predittivo.
Ho una classe di dati sbilanciati e voglio sintonizzare gli iperparametri della treccia potenziata usando xgboost. Domande Esiste un equivalente di gridsearchcv o randomsearchcv per xgboost? In caso contrario, qual è l'approccio raccomandato per ottimizzare i parametri di xgboost?
Esistono diverse implementazioni della famiglia di modelli GBDT come: GBM XGBoost LightGBM Catboost. Quali sono le differenze matematiche tra queste diverse implementazioni? Catboost sembra sovraperformare le altre implementazioni anche usando solo i suoi parametri predefiniti secondo questo punto di riferimento , ma è ancora molto lento. La mia ipotesi è …
Come esempio, assumere la funzione obiettivo del modello XGBoost sulla 'th iterazione:ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) dove è la funzione di perdita, è la t 'th uscita albero e \ Omega è la regolarizzazione. Uno dei (molti) passaggi chiave per il calcolo veloce è l'approssimazione:ℓℓ\ellftftf_ttttΩΩ\Omega L( t )≈ ∑i = 1nℓ ( yio, …
Ho un set di dati molto squilibrato. Sto cercando di seguire i consigli di sintonizzazione e di utilizzare, scale_pos_weightma non sono sicuro di come sintonizzarmi. Vedo che RegLossObj.GetGradientfa: if (info.labels[i] == 1.0f) w *= param_.scale_pos_weight quindi un gradiente di un campione positivo sarebbe più influente. Tuttavia, secondo il documento xgboost …
La definizione del parametro min_child_weight in xgboost è data come: somma minima del peso dell'istanza (hessiana) necessaria in un bambino. Se il passaggio della partizione dell'albero risulta in un nodo foglia con la somma del peso dell'istanza inferiore a min_child_weight, il processo di costruzione rinuncerà a un ulteriore partizionamento. In …
Sto cercando di capire come funziona XGBoost. Capisco già come funzionano gli alberi con gradiente potenziato su Python sklearn. Ciò che non mi è chiaro è se XGBoost funziona allo stesso modo, ma più velocemente, o se ci sono differenze fondamentali tra esso e l'implementazione di Python. Quando ho letto …
Sto lavorando con molti algoritmi: RandomForest, DecisionTrees, NaiveBayes, SVM (kernel = linear e rbf), KNN, LDA e XGBoost. Tutti sono stati piuttosto veloci, tranne SVM. Questo è quando ho saputo che ha bisogno del ridimensionamento delle funzionalità per funzionare più velocemente. Poi ho iniziato a chiedermi se avrei dovuto fare …
Ci sono molti post sul blog, video di YouTube, ecc. Sulle idee di insaccamento o potenziamento degli alberi. La mia comprensione generale è che lo pseudo codice per ciascuno è: insacco: Prendi N campioni casuali di x% dei campioni e y% delle caratteristiche Adatta il tuo modello (ad es. Albero …
Supponiamo che abbiamo un problema di classificazione binaria con caratteristiche per lo più categoriche. Usiamo alcuni modelli non lineari (ad esempio XGBoost o Random Forests) per impararlo. Bisogna ancora preoccuparsi della multi-collinearità? Perché? Se la risposta a quanto sopra è vera, come si dovrebbe combatterla considerando che si stanno usando …
Di recente ho esaminato l'algoritmo XGBoost e ho notato che questo algoritmo può gestire i dati mancanti (senza richiedere imputazione) durante la fase di addestramento. Mi chiedevo se XGboost è in grado di gestire i dati mancanti (senza richiedere imputazione) quando viene utilizzato per prevedere nuove osservazioni o se è …
Ho cercato di capire l'incremento del gradiente leggendo vari blog, siti Web e cercando di trovare la mia risposta cercando ad esempio il codice sorgente XGBoost. Tuttavia, non riesco a trovare una spiegazione comprensibile di come gli algoritmi di aumento gradiente producano stime di probabilità. Quindi, come calcolano le probabilità?
So implementare la funzione dell'obiettivo lineare e i boost lineari in XGBoost. La mia domanda concreta è: quando l'algoritmo si adatta al residuo (o al gradiente negativo) sta usando una caratteristica ad ogni passo (modello univariato) o tutte le caratteristiche (modello multivariato)? Qualsiasi riferimento alla documentazione relativa ai boost lineari …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.