Sto cercando di capire le differenze chiave tra GBM e XGBOOST. Ho provato a cercarlo su Google, ma non sono riuscito a trovare buone risposte che spiegassero le differenze tra i due algoritmi e perché xgboost abbia quasi sempre prestazioni migliori di GBM. Cosa rende XGBOOST così veloce?
Ho eseguito un modello xgboost. Non so esattamente come interpretare l'output di xgb.importance. Qual è il significato di guadagno, copertura e frequenza e come li interpretiamo? Inoltre, cosa significano Split, RealCover e RealCover%? Ho alcuni parametri extra qui Ci sono altri parametri che possono dirmi di più sull'importanza delle funzionalità? …
Sto cercando di formare un modello di aumento gradiente su 50.000 esempi con 100 funzioni numeriche. XGBClassifiergestisce 500 alberi entro 43 secondi sulla mia macchina, mentre GradientBoostingClassifiergestisce solo 10 alberi (!) in 1 minuto e 2 secondi :( Non mi sono preoccupato di provare a far crescere 500 alberi perché …
XGBoost ha fatto un ottimo lavoro, quando si tratta di gestire variabili dipendenti sia categoriche che continue. Ma come posso selezionare i parametri ottimizzati per un problema XGBoost? Ecco come ho applicato i parametri per un recente problema di Kaggle: param <- list( objective = "reg:linear", booster = "gbtree", eta …
Sto cercando di capire quale sia il migliore (più preciso, soprattutto nei problemi di classificazione) Ho cercato articoli confrontando LightGBM e XGBoost ma ne ho trovati solo due: https://medium.com/implodinggradients/benchmarking-lightgbm-how-fast-is-lightgbm-vs-xgboost-15d224568031 - che riguarda solo la velocità ma non la precisione. https://github.com/Microsoft/LightGBM/wiki/Experiments - che proviene dagli autori di LightGBM e nessuna sorpresa …
Non ero chiaro su un paio di concetti: XGBoost converte gli studenti deboli in studenti forti. Qual è il vantaggio di farlo? Combinando molti studenti deboli invece di usare un solo albero? La foresta casuale usa vari campioni dall'albero per creare un albero. Qual è il vantaggio di questo metodo …
Attualmente sto usando XGBoost su un set di dati con 21 funzionalità (selezionate dall'elenco di circa 150 funzionalità), quindi le ho codificate a caldo per ottenere ~ 98 funzionalità. Alcune di queste 98 funzionalità sono in qualche modo ridondanti, ad esempio: una variabile (funzione) appare anche come e .UNUNABUNBUN\frac{B}{A}CUNCUN\frac{C}{A} Le …
Ho 3 lezioni con questa distribuzione: Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 E sto usando xgboostper la classificazione. So che esiste un parametro chiamato scale_pos_weight. Ma come viene gestito per il caso "multiclasse" e come posso impostarlo correttamente?
Attualmente sto usando XGBoost per la previsione del rischio, sembra che stia facendo un buon lavoro nel dipartimento di classificazione binaria, ma le uscite di probabilità sono molto lontane, cioè cambiare il valore di una caratteristica in un'osservazione di una quantità molto piccola può fare la probabilità salto in uscita …
Numero 1: Sono confuso dalla descrizione di LightGBM riguardo al modo in cui l'albero viene espanso. Dichiarano: La maggior parte degli algoritmi di apprendimento dell'albero decisionale cresce l'albero per livello (profondità) in senso orizzontale, come nella seguente immagine: Domande 1 : quali sono gli algoritmi "più" implementati in questo modo? …
Per quanto ne so, per formare l'apprendimento per classificare i modelli, devi avere tre cose nel set di dati: etichetta o pertinenza ID gruppo o query vettore di funzionalità Ad esempio, il set di dati di Microsoft Learning to Rank utilizza questo formato (etichetta, ID gruppo e funzionalità). 1 qid:10 …
Sto cercando di eseguire xgboost in scikit learn. E io uso solo Panda per caricare i dati in dataframe. Come dovrei usare Panda Panda con xgboost. Sono confuso dalla routine DMatrix richiesta per eseguire xgboost algo.
Se alleno il mio modello utilizzando il seguente codice: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) termina in circa 1 minuto. Se alleno il mio modello usando il …
Stavo cercando di usare le importazioni delle funzionalità dalle foreste casuali per eseguire alcune selezioni empiriche di funzionalità per un problema di regressione in cui tutte le funzionalità sono categoriche e molte hanno molti livelli (dell'ordine di 100-1000). Dato che la codifica one-hot crea una variabile fittizia per ogni livello, …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.