Scienza dei dati classification

2

Come aumentare la precisione dei classificatori?

Sto usando l'esempio di OpenCV letter_recog.cpp per sperimentare su alberi casuali e altri classificatori. Questo esempio ha implementazioni di sei classificatori: alberi casuali, boosting, MLP, kNN, ingenui Bayes e SVM. Viene utilizzato il set di dati di riconoscimento lettere UCI con 20000 istanze e 16 funzionalità, che ho diviso a …

16 machine-learning classification svm accuracy random-forest

5

Scegli l'algoritmo di classificazione binaria

Ho un problema di classificazione binaria: Circa 1000 campioni in set di allenamento 10 attributi, inclusi binari, numerici e categorici Quale algoritmo è la scelta migliore per questo tipo di problema? Per impostazione predefinita, inizierò con SVM (preliminare con valori di attributi nominali convertiti in funzioni binarie), poiché è considerato …

16 classification binary svm random-forest logistic-regression

3

Classificazione discriminatoria di una classe con background negativo squilibrato, eterogeneo?

Sto lavorando per migliorare un classificatore supervisionato esistente, per classificare le sequenze di {proteine} come appartenenti a una classe specifica (precursori dell'ormone neuropeptide) o no. Esistono circa 1.150 "positivi" noti, su uno sfondo di circa 13 milioni di sequenze di proteine ("Sfondo sconosciuto / scarsamente annotato"), o circa 100.000 proteine …

16 machine-learning data-mining python classification

6

Qual è il motivo alla base della trasformazione del log di poche variabili continue?

Ho riscontrato un problema di classificazione e ho letto il codice e le esercitazioni di molte persone. Una cosa che ho notato è che molte persone prendono np.logo logdi variabili continue come loan_amounto applicant_incomeecc. Voglio solo capire il motivo dietro. Aiuta a migliorare la precisione della previsione del nostro modello. …

16 machine-learning python classification scikit-learn

5

ingrandisci la mappa di calore dei nati marini

Creo un corr()df da un df originale. Il corr()df è venuto fuori 70 X 70 ed è impossibile visualizzare il heatmap ... sns.heatmap(df). Se provo a visualizzare il corr = df.corr(), la tabella non si adatta allo schermo e posso vedere tutte le correlazioni. È un modo per stampare l'intero …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

4

Le uscite XGBoost tendono verso gli estremi

Attualmente sto usando XGBoost per la previsione del rischio, sembra che stia facendo un buon lavoro nel dipartimento di classificazione binaria, ma le uscite di probabilità sono molto lontane, cioè cambiare il valore di una caratteristica in un'osservazione di una quantità molto piccola può fare la probabilità salto in uscita …

15 machine-learning classification xgboost probability probability-calibration

4

Albero decisionale o regressione logistica?

Sto lavorando a un problema di classificazione. Ho un set di dati contenente lo stesso numero di variabili categoriche e variabili continue. Come faccio a sapere quale tecnica utilizzare? tra un albero decisionale e una regressione logistica? È giusto supporre che la regressione logistica sarà più adatta per la variabile …

14 classification logistic-regression decision-trees

2

Utilizzo degli attributi per classificare / raggruppare i profili utente

Ho un set di dati di utenti che acquistano prodotti da un sito Web. Gli attributi che ho sono ID utente, regione (stato) dell'utente, ID categorie di prodotto, ID parole chiave del prodotto, ID parole chiave del sito Web e importo delle vendite speso del prodotto. L'obiettivo è quello di …

14 machine-learning data-mining classification clustering

2

Modello di classificazione binaria per dati non bilanciati

Ho un set di dati con le seguenti specifiche: Set di dati di addestramento con 193.176 campioni con 2.821 positivi Set di dati di prova con 82.887 campioni con 673 positivi Ci sono 10 funzioni. Voglio eseguire una classificazione binaria (0 o 1). Il problema che sto affrontando è che …

14 machine-learning python classification logistic-regression

1

Come viene scelto un punto di divisione per variabili continue negli alberi delle decisioni?

Ho due domande relative agli alberi decisionali: Se abbiamo un attributo continuo, come possiamo scegliere il valore di divisione? Esempio: Età = (20,29,50,40 ....) Immaginiamo di avere un attributo continuo che hanno valori in R . Come posso scrivere un algoritmo che trova il punto di divisione v , in …

14 classification data decision-trees

1

Come gestire un fattore zero nel calcolo del classificatore Naive Bayes?

Se ho un set di dati di allenamento e mi alleno un classificatore Naes Bayes su di esso e ho un valore di attributo che ha probabilità zero. Come posso gestirlo se in seguito voglio prevedere la classificazione su nuovi dati? Il problema è che se nel calcolo c'è uno …

14 classification naive-bayes-classifier

1

Qual è la differenza tra la generazione e l'estrazione di funzionalità?

Qualcuno può dirmi qual è lo scopo della generazione di funzionalità? e perché è necessario l'arricchimento dello spazio delle caratteristiche prima di classificare un'immagine? È un passo necessario? Esiste un metodo per arricchire lo spazio delle funzionalità?

13 machine-learning classification

3

Il modo migliore per classificare set di dati con tipi misti di attributi

Vorrei sapere qual è il modo migliore per classificare un set di dati composto da tipi misti di attributi, ad esempio testuale e numerico. So di poter convertire testuale in booleano, ma il vocabolario è vario e i dati diventano troppo scarsi. Ho anche cercato di classificare i tipi di …

13 machine-learning classification

2

perché dobbiamo gestire lo squilibrio dei dati?

Devo sapere perché dobbiamo affrontare lo squilibrio dei dati. So come affrontarlo e diversi metodi per risolvere il problema che consiste nel campionare in alto o in basso o usando Smote. Ad esempio, se ho una malattia rara dell'1 percento su 100, e diciamo che ho deciso di avere un …

12 classification dataset sampling class-imbalance

3

Come usare RBM per la classificazione?

Al momento sto giocando con Restricted Boltzmann Machines e dato che ci sono, vorrei provare a classificare le cifre scritte a mano con esso. Il modello che ho creato ora è un modello generativo piuttosto elaborato ma non so come andare oltre. In questo articolo l'autore afferma che, dopo aver …

12 classification rbm

Domande taggate «classification»