Scienza dei dati

Domande e risposte per i professionisti della scienza dei dati, gli specialisti di Machine Learning e coloro che sono interessati a saperne di più sul campo



3
Panda Dataframe su DMatrix
Sto cercando di eseguire xgboost in scikit learn. E io uso solo Panda per caricare i dati in dataframe. Come dovrei usare Panda Panda con xgboost. Sono confuso dalla routine DMatrix richiesta per eseguire xgboost algo.

3
Come usare LeakyRelu come funzione di attivazione in sequenza DNN in keras? Quando si perfeziona meglio di Relu?
Come si usa LeakyRelu come funzione di attivazione nella sequenza DNN in keras? Se voglio scrivere qualcosa di simile a: model = Sequential() model.add(Dense(90, activation='LeakyRelu')) Qual'è la soluzione? Metti LeakyRelu simile a Relu? La seconda domanda è: quali sono le migliori impostazioni generali per l'ottimizzazione dei parametri di LeakyRelu? Quando …


2
Perché gli algoritmi genetici non vengono utilizzati per ottimizzare le reti neurali?
Da quanto ho capito, gli algoritmi genetici sono potenti strumenti per l'ottimizzazione multi-obiettivo. Inoltre, addestrare le reti neurali (specialmente quelle profonde) è difficile e presenta molti problemi (funzioni di costo non convesse - minimi locali, gradienti di fuga e di esplosione, ecc.). Inoltre, sono fattibile allenare concettualmente una NN con …



1
Quante funzioni da campionare usando le foreste casuali
La pagina di Wikipedia che cita "Gli elementi dell'apprendimento statistico" dice: In genere, per un problema di classificazione con funzionalità ppp , le funzioni vengono utilizzate in ogni divisione.⌊ p-√⌋⌊p⌋\lfloor \sqrt{p}\rfloor Capisco che si tratta di una supposizione abbastanza istruita e probabilmente è stata confermata da prove empiriche, ma ci …

1
XGBRegressor vs. xgboost.train enorme differenza di velocità?
Se alleno il mio modello utilizzando il seguente codice: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) termina in circa 1 minuto. Se alleno il mio modello usando il …


1
Heatmap su una mappa in Python
Mode Analytics ha una bella funzione heatmap ( https://community.modeanalytics.com/gallery/geographic-heat-map/ ). Ma non è favorevole al confronto delle mappe (solo una per rapporto). Ciò che consentono è che i dati vengano estratti facilmente in un notebook Python incartato. E quindi qualsiasi immagine in Python può essere facilmente aggiunta a un rapporto. …


5
L'importanza delle funzionalità con Scikit-learn Random Forest mostra una deviazione standard molto elevata
Sto usando Scikit-learn Random Forest Classifier e voglio tracciare l'importanza delle funzionalità come in questo esempio . Tuttavia, il mio risultato è completamente diverso, nel senso che l'importanza della deviazione standard è quasi sempre maggiore dell'importanza della caratteristica stessa (vedi immagine allegata). È possibile avere questo tipo di comportamento, o …


Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.