Ho un set di dati che contiene ~ 100.000 campioni di 50 classi. Ho usato SVM con un kernel RBF per addestrare e prevedere nuovi dati. Il problema però è che il set di dati è inclinato verso classi diverse. Ad esempio, Classe 1 - 30 (~ 3% ciascuno), Classe …
Sto lavorando alla classificazione del testo in cui ho 39 categorie / classi e 8,5 milioni di record. (In futuro aumenteranno i dati e le categorie). La struttura o il formato dei miei dati è il seguente. ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | …
Supponiamo che io sia interessato a tre classi , , . Ma il mio set di dati contiene in realtà diverse altre classi reali .c1c1c_1c2c2c_2c3c3c_3(cj)nj=4(cj)j=4n(c_j)_{j=4}^n La risposta ovvia è definire una nuova classe che riferimento a tutte le classi , ma sospetto che questa non sia una buona idea poiché …
Ho un set di dati composto da serie temporali (8 punti) con circa 40 dimensioni (quindi ogni serie temporale è 8 per 40). L'output corrispondente (i possibili risultati per le categorie) è 0 o 1. Quale sarebbe l'approccio migliore per progettare un classificatore per serie storiche con più dimensioni? La …
Il mio set di dati comprende sequenze vettoriali. Ogni vettore ha 50 dimensioni con valori reali. Il numero di vettori in una sequenza varia da 3-5 a 10-15. In altre parole, la lunghezza di una sequenza non è fissa. Alcune discrete sequenze (non vettori!) Sono annotate con un'etichetta di classe. …
Problema Ho provato a usare Naive Bayes su una serie di dati etichettati di dati sulla criminalità, ma ho ottenuto risultati davvero scarsi (precisione del 7%). Naive Bayes corre molto più velocemente degli altri alogoritmi che ho usato, quindi volevo provare a scoprire perché il punteggio era così basso. Ricerca …
Ho un enorme set di dati da un database relazionale per il quale devo creare un modello di classificazione. Normalmente per questa situazione utilizzerei la Programmazione logica induttiva (ILP), ma a causa di circostanze speciali non posso farlo. L'altro modo per affrontare questo sarebbe solo quello di provare ad aggregare …
Quali set di dati disponibili gratuitamente posso usare per addestrare un classificatore di testo? Stiamo cercando di migliorare il coinvolgimento dei nostri utenti raccomandandogli il contenuto più correlato, quindi abbiamo pensato che se avessimo classificato i nostri contenuti in base a un sacco di parole predefinito, potremmo consigliargli di coinvolgere …
Sto sviluppando un modello di previsione utilizzando Java Weka api. Posso prevedere la classe per la nuova istanza utilizzando il seguente codice: double predictClass = classifer.classifyInstance(instance) Tuttavia, ho bisogno della probabilità della classe anziché del valore della classe. Grazie in anticipo per il tuo supporto.
Ho dei dati di allenamento che sono etichettati con valori binari. Ho anche raccolto la fiducia di ciascuna di queste etichette, ovvero 0,8 di fiducia significherebbe che l'80% delle etichettatrici umane è d'accordo su tale etichetta. È possibile utilizzare questi dati di confidenza per migliorare l'accuratezza del mio classificatore? Il …
Sto imparando Support Vector Machines e non riesco a capire come viene scelta un'etichetta di classe per un punto dati in un classificatore binario. È scelto per consenso rispetto alla classificazione in ciascuna dimensione dell'iperpiano di separazione?
Qual è il modo migliore per classificare gli approcci che sono stati sviluppati per affrontare il problema della classe di squilibrio? Questo articolo li classifica in: Preelaborazione: include il sovracampionamento, il sottocampionamento e metodi ibridi, Apprendimento sensibile ai costi: comprende metodi diretti e meta-apprendimento che questi ultimi ulteriormente dividono in …
Ho due set di dati A e B che sono esattamente gli stessi in termini di numero di colonne, nome delle colonne e valori. L'unica differenza è l'ordine di quelle colonne. Quindi treno il modello LightGBM su ciascuno dei due set di dati con i seguenti passaggi Dividi ogni set …
Basato su TPR e FPR, ho generato la curva ROC per il mio modello di classificazione binaria. Non so come calcolare il valore AUC. Sarei di grande aiuto per me se mi aiutassi a calcolare il valore AUC.
Sto usando l'API Java Weka per costruire un modello di classificazione. Posso usare il filtro delle password incorporato. Tuttavia, devo utilizzare un filtro personalizzato per il mio problema. Non so come utilizzare un filtro stopwords personalizzato nell'API Java Weka.
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.