Scienza dei dati unbalanced-classes

5

Dovrei scegliere un set di dati "bilanciato" o un set di dati "rappresentativo"?

Il mio compito di "machine learning" è quello di separare il traffico Internet benigno dal traffico malevolo. Nello scenario del mondo reale, la maggior parte (diciamo del 90% o più) del traffico Internet è benigna. Quindi ho sentito che avrei dovuto scegliere una configurazione di dati simile per addestrare anche …

48 machine-learning dataset unbalanced-classes

4

Guida rapida alla formazione di set di dati altamente squilibrati

Ho un problema di classificazione con circa 1000 campioni positivi e 10000 negativi nel set di allenamento. Quindi questo set di dati è abbastanza sbilanciato. La semplice foresta casuale sta solo cercando di contrassegnare tutti i campioni di test come una classe di maggioranza. Ecco alcune buone risposte sul sottocampionamento …

29 machine-learning classification dataset unbalanced-classes

4

Dati multiclasse non bilanciati con XGBoost

Ho 3 lezioni con questa distribuzione: Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 E sto usando xgboostper la classificazione. So che esiste un parametro chiamato scale_pos_weight. Ma come viene gestito per il caso "multiclasse" e come posso impostarlo correttamente?

20 classification xgboost multiclass-classification unbalanced-classes

4

Quali sono le implicazioni per l'addestramento di un insieme di alberi con set di dati altamente distorti?

Ho un set di dati binari altamente distorto: ho 1000 volte più esempi della classe negativa rispetto alla classe positiva. Vorrei addestrare un albero insieme (come alberi casuali extra o una foresta casuale) su questi dati, ma è difficile creare set di dati di addestramento che contengano abbastanza esempi della …

14 machine-learning feature-selection unbalanced-classes

2

Come si applica SMOTE alla classificazione del testo?

Synthetic Minority Oversampling Technique (SMOTE) è una tecnica di sovracampionamento utilizzata in un problema con un set di dati sbilanciato. Finora ho un'idea di come applicarlo su dati generici e strutturati. Ma è possibile applicarlo sul problema della classificazione del testo? Quale parte dei dati è necessaria per sottocampionare? C'è …

13 unbalanced-classes text smote

1

Quante celle LSTM dovrei usare?

Esistono delle regole empiriche (o regole effettive) relative alla quantità minima, massima e "ragionevole" di celle LSTM che dovrei usare? In particolare mi riferisco a BasicLSTMCell di TensorFlow e num_unitsproprietà. Si prega di supporre che ho un problema di classificazione definito da: t - number of time steps n - …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

3

Classi squilibrate - Come ridurre al minimo i falsi negativi?

Ho un set di dati che ha un attributo di classe binaria. Ci sono 623 casi con classe +1 (positivo al cancro) e 101.671 casi con classe -1 (negativo al cancro). Ho provato vari algoritmi (Naive Bayes, Random Forest, AODE, C4.5) e tutti hanno inaccettabili rapporti di falsi negativi. Random …

11 classification random-forest decision-trees unbalanced-classes

2

Quando scegliere la regressione lineare o la regressione dell'albero decisionale o della foresta casuale? [chiuso]

Chiuso . Questa domanda deve essere più focalizzata . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che si concentri su un problema solo modificando questo post . Chiuso 4 anni fa . Sto lavorando a un progetto e ho difficoltà a decidere quale …

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

4

Classe sbilanciata: class_weight per algoritmi ML in Spark MLLib

In python sklearn, ci sono più algoritmi (ad es. Regressione, foresta casuale ... ecc.) Che hanno il parametro class_weight per gestire i dati sbilanciati. Tuttavia, non trovo tale parametro per gli algoritmi MLLib. Esiste un piano per implementare class_weight per alcuni algoritmi MLLib? O esiste un approccio in MLLib per …

8 machine-learning apache-spark unbalanced-classes weighted-data

Domande taggate «unbalanced-classes»