Scienza dei dati classification

4

Ho un set di dati che contiene ~ 100.000 campioni di 50 classi. Ho usato SVM con un kernel RBF per addestrare e prevedere nuovi dati. Il problema però è che il set di dati è inclinato verso classi diverse. Ad esempio, Classe 1 - 30 (~ 3% ciascuno), Classe …

10 classification svm

1

Dati squilibrati che causano una classificazione errata nel set di dati multiclasse

Sto lavorando alla classificazione del testo in cui ho 39 categorie / classi e 8,5 milioni di record. (In futuro aumenteranno i dati e le categorie). La struttura o il formato dei miei dati è il seguente. ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | …

9 machine-learning python classification scikit-learn multiclass-classification

1

Come posso affrontare un problema di classificazione in cui una delle classi è definita da "nessuna delle altre"

Supponiamo che io sia interessato a tre classi , , . Ma il mio set di dati contiene in realtà diverse altre classi reali .c1c1c_1c2c2c_2c3c3c_3(cj)nj=4(cj)j=4n(c_j)_{j=4}^n La risposta ovvia è definire una nuova classe che riferimento a tutte le classi , ma sospetto che questa non sia una buona idea poiché …

9 machine-learning classification

4

Classificare serie temporali multivariate

Ho un set di dati composto da serie temporali (8 punti) con circa 40 dimensioni (quindi ogni serie temporale è 8 per 40). L'output corrispondente (i possibili risultati per le categorie) è 0 o 1. Quale sarebbe l'approccio migliore per progettare un classificatore per serie storiche con più dimensioni? La …

9 classification time-series pca

2

Classificazione delle sequenze vettoriali

Il mio set di dati comprende sequenze vettoriali. Ogni vettore ha 50 dimensioni con valori reali. Il numero di vettori in una sequenza varia da 3-5 a 10-15. In altre parole, la lunghezza di una sequenza non è fissa. Alcune discrete sequenze (non vettori!) Sono annotate con un'etichetta di classe. …

9 classification sequence

2

Implementazione di Bayes Naive complementari in Python?

Problema Ho provato a usare Naive Bayes su una serie di dati etichettati di dati sulla criminalità, ma ho ottenuto risultati davvero scarsi (precisione del 7%). Naive Bayes corre molto più velocemente degli altri alogoritmi che ho usato, quindi volevo provare a scoprire perché il punteggio era così basso. Ricerca …

9 machine-learning classification python naive-bayes-classifier

1

Data mining relazionale senza ILP

Ho un enorme set di dati da un database relazionale per il quale devo creare un modello di classificazione. Normalmente per questa situazione utilizzerei la Programmazione logica induttiva (ILP), ma a causa di circostanze speciali non posso farlo. L'altro modo per affrontare questo sarebbe solo quello di provare ad aggregare …

9 data-mining classification relational-dbms

4

Suggerisci set di dati di addestramento per la classificazione dei testi

Quali set di dati disponibili gratuitamente posso usare per addestrare un classificatore di testo? Stiamo cercando di migliorare il coinvolgimento dei nostri utenti raccomandandogli il contenuto più correlato, quindi abbiamo pensato che se avessimo classificato i nostri contenuti in base a un sacco di parole predefinito, potremmo consigliargli di coinvolgere …

9 machine-learning classification dataset clustering text-mining

2

Come posso calcolare la probabilità di previsione di una classe in Java Weka Api?

Sto sviluppando un modello di previsione utilizzando Java Weka api. Posso prevedere la classe per la nuova istanza utilizzando il seguente codice: double predictClass = classifer.classifyInstance(instance) Tuttavia, ho bisogno della probabilità della classe anziché del valore della classe. Grazie in anticipo per il tuo supporto.

9 classification java weka

1

La fiducia nell'etichetta di allenamento può essere utilizzata per migliorare la precisione delle previsioni?

Ho dei dati di allenamento che sono etichettati con valori binari. Ho anche raccolto la fiducia di ciascuna di queste etichette, ovvero 0,8 di fiducia significherebbe che l'80% delle etichettatrici umane è d'accordo su tale etichetta. È possibile utilizzare questi dati di confidenza per migliorare l'accuratezza del mio classificatore? Il …

9 machine-learning classification regression scikit-learn svm

1

Utilizzando SVM come classificatore binario, l'etichetta per un punto dati è stata scelta per consenso?

Sto imparando Support Vector Machines e non riesco a capire come viene scelta un'etichetta di classe per un punto dati in un classificatore binario. È scelto per consenso rispetto alla classificazione in ciascuna dimensione dell'iperpiano di separazione?

9 svm classification binary

1

Classificazione degli approcci per affrontare le classi squilibrate

Qual è il modo migliore per classificare gli approcci che sono stati sviluppati per affrontare il problema della classe di squilibrio? Questo articolo li classifica in: Preelaborazione: include il sovracampionamento, il sottocampionamento e metodi ibridi, Apprendimento sensibile ai costi: comprende metodi diretti e meta-apprendimento che questi ultimi ulteriormente dividono in …

8 machine-learning classification class-imbalance

2

LightGBM risulta in modo diverso a seconda dell'ordine dei dati

Ho due set di dati A e B che sono esattamente gli stessi in termini di numero di colonne, nome delle colonne e valori. L'unica differenza è l'ordine di quelle colonne. Quindi treno il modello LightGBM su ciascuno dei due set di dati con i seguenti passaggi Dividi ogni set …

8 machine-learning classification

1

Come posso calcolare l'AUC dalla curva ROC per la classificazione?

Basato su TPR e FPR, ho generato la curva ROC per il mio modello di classificazione binaria. Non so come calcolare il valore AUC. Sarei di grande aiuto per me se mi aiutassi a calcolare il valore AUC.

8 machine-learning classification

2

Come posso utilizzare un filtro per le password personalizzate nell'API Java Weka?

Sto usando l'API Java Weka per costruire un modello di classificazione. Posso usare il filtro delle password incorporato. Tuttavia, devo utilizzare un filtro personalizzato per il mio problema. Non so come utilizzare un filtro stopwords personalizzato nell'API Java Weka.

8 classification java weka

Domande taggate «classification»