So che esiste una possibilità in Keras con il class_weightsdizionario dei parametri adatto, ma non sono riuscito a trovare alcun esempio. Qualcuno sarebbe così gentile da offrirne uno? A proposito, in questo caso la prassi appropriata è semplicemente quella di ponderare la classe di minoranza proporzionalmente alla sua sottorappresentazione?
Sembra che la somiglianza del coseno di due caratteristiche sia solo il loro punto prodotto ridimensionato dal prodotto delle loro magnitudini. Quando la somiglianza del coseno rende una metrica di distanza migliore rispetto al prodotto punto? Vale a dire il prodotto punto e la somiglianza del coseno hanno diversi punti …
Sto lavorando sulla ricerca, in cui necessità di una classificare dei WINNER tre eventi = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 Il mio modello attuale …
Ho un grosso problema con un grande set di dati (ad esempio 50 milioni di righe e 200 colonne). Il set di dati è costituito da circa 100 colonne numeriche e 100 colonne categoriche e una colonna di risposta che rappresenta un problema di classe binaria. La cardinalità di ciascuna …
Sto cercando di formare un modello di aumento gradiente su 50.000 esempi con 100 funzioni numeriche. XGBClassifiergestisce 500 alberi entro 43 secondi sulla mia macchina, mentre GradientBoostingClassifiergestisce solo 10 alberi (!) in 1 minuto e 2 secondi :( Non mi sono preoccupato di provare a far crescere 500 alberi perché …
Ho un problema di classificazione con circa 1000 campioni positivi e 10000 negativi nel set di allenamento. Quindi questo set di dati è abbastanza sbilanciato. La semplice foresta casuale sta solo cercando di contrassegnare tutti i campioni di test come una classe di maggioranza. Ecco alcune buone risposte sul sottocampionamento …
Quando si dovrebbe usare Random Forestoltre SVMe viceversa? Lo capisco cross-validatione il confronto tra modelli è un aspetto importante nella scelta di un modello, ma qui vorrei saperne di più sulle regole empiriche e sull'euristica dei due metodi. Qualcuno può spiegare le sottigliezze, i punti di forza e di debolezza …
Nota che sto facendo tutto in R. Il problema si presenta come segue: Fondamentalmente, ho un elenco di curriculum (CV). Alcuni candidati avranno prima esperienza lavorativa e altri no. L'obiettivo qui è: sulla base del testo dei loro CV, voglio classificarli in diversi settori lavorativi. Sono particolare in quei casi, …
Recentemente a un mio amico è stato chiesto se gli algoritmi dell'albero decisionale fossero algoritmi lineari o non lineari in un'intervista. Ho cercato di cercare risposte a questa domanda ma non sono riuscito a trovare spiegazioni soddisfacenti. Qualcuno può rispondere e spiegare la soluzione a questa domanda? Inoltre, quali sono …
Voglio calcolare la precisione, il richiamo e il punteggio F1 per il mio modello binario KerasClassifier, ma non trovo alcuna soluzione. Ecco il mio codice attuale: # Split dataset in train and test data X_train, X_test, Y_train, Y_test = train_test_split(normalized_X, Y, test_size=0.3, random_state=seed) # Build the model model = Sequential() …
Conosco la differenza tra clustering e classificazione nell'apprendimento automatico, ma non capisco la differenza tra la classificazione del testo e la modellazione degli argomenti per i documenti. Posso utilizzare la modellazione degli argomenti sui documenti per identificare un argomento? Posso utilizzare i metodi di classificazione per classificare il testo all'interno …
Ho 3 lezioni con questa distribuzione: Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 E sto usando xgboostper la classificazione. So che esiste un parametro chiamato scale_pos_weight. Ma come viene gestito per il caso "multiclasse" e come posso impostarlo correttamente?
Il problema che sto affrontando sta classificando brevi testi in più classi. Il mio approccio attuale è quello di utilizzare le frequenze dei termini ponderate tf-idf e apprendere un semplice classificatore lineare (regressione logistica). Funziona abbastanza bene (circa il 90% di macro F-1 sul set di test, quasi il 100% …
Sto cercando di cercare una buona argomentazione sul perché si dovrebbe usare la distanza di Manhattan sulla distanza euclidea in Machine Learning. La cosa più vicina che ho trovato ad una buona discussione finora è su questa lezione del MIT . Alle 36:15 puoi vedere nelle diapositive la seguente dichiarazione: …
Ho caratteristiche sparse che sono predittive, inoltre ho alcune caratteristiche dense che sono anche predittive. Devo combinare queste funzionalità insieme per migliorare le prestazioni complessive del classificatore. Ora, il problema è che quando provo a combinarli insieme, le funzioni dense tendono a dominare di più rispetto alle funzioni sparse, offrendo …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.