Domande taggate «text-mining»

Si riferisce a un sottoinsieme di data mining relativo all'estrazione di informazioni dai dati sotto forma di testo riconoscendo i modelli. L'obiettivo del text mining è spesso quello di classificare un determinato documento in una di una serie di categorie in modo automatico e di migliorare queste prestazioni in modo dinamico, rendendolo un esempio di apprendimento automatico. Un esempio di questo tipo di text mining sono i filtri antispam utilizzati per la posta elettronica.


1
Di quanti dati di formazione ha bisogno word2vec?
Vorrei confrontare la differenza tra la stessa parola menzionata in diverse fonti. Cioè, come gli autori differiscono nel loro uso di parole mal definite, come "democrazia". Era un breve piano Prendi i libri che menzionano il termine "democrazia" come testo semplice In ogni libro, sostituiscilo democracycondemocracy_%AuthorName% Allena un word2vecmodello su …

3

2
Quando scegliere la regressione lineare o la regressione dell'albero decisionale o della foresta casuale? [chiuso]
Chiuso . Questa domanda deve essere più focalizzata . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che si concentri su un problema solo modificando questo post . Chiuso 4 anni fa . Sto lavorando a un progetto e ho difficoltà a decidere quale …
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

2
quali tecniche di machine / deep learning / nlp sono utilizzate per classificare una determinata parola come nome, numero di cellulare, indirizzo, e-mail, stato, contea, città ecc.
Sto cercando di generare un modello intelligente in grado di scansionare un insieme di parole o stringhe e classificarle come nomi, numeri mobili, indirizzi, città, stati, paesi e altre entità usando l'apprendimento automatico o l'apprendimento profondo. Avevo cercato approcci, ma sfortunatamente non ho trovato alcun approccio da adottare. Avevo provato …

4
Suggerisci set di dati di addestramento per la classificazione dei testi
Quali set di dati disponibili gratuitamente posso usare per addestrare un classificatore di testo? Stiamo cercando di migliorare il coinvolgimento dei nostri utenti raccomandandogli il contenuto più correlato, quindi abbiamo pensato che se avessimo classificato i nostri contenuti in base a un sacco di parole predefinito, potremmo consigliargli di coinvolgere …


3
Come valutare il clustering di testo?
Quali metriche possono essere utilizzate per valutare i modelli di clustering di testo? Ho usato tf-idf+ k-means, tf-idf+ hierarchical clustering, doc2vec+ k-means (metric is cosine similarity), doc2vec+ hierarchical clustering (metric is cosine similarity). Come decidere quale modello è il migliore?

4
Classificazione dell'email in R
Sto lavorando a un progetto in R in cui ho circa 1200 e-mail da un'azienda, la maggior parte delle quali sono classificate come classe11_{1} o classe22_{2}, che sono i tipi di richieste. Circa 1000 e-mail sono classificate come classe11_{1}e 200 sono classificati come classe22_{2}Il mio obiettivo è quello di utilizzare …



1
Differenza tra tf-idf e tf con le foreste casuali
Sto lavorando a un problema di classificazione del testo usando Random Forest come classificatori e un approccio bag-of-word. Sto usando l'implementazione di base di Random Forests (quella presente in scikit), che crea una condizione binaria su una singola variabile ad ogni divisione. Detto questo, c'è una differenza tra l'uso di …

1
Errore R durante l'utilizzo del pacchetto tm (text-mining)
Sto tentando di utilizzare il pacchetto tm per convertire un vettore di stringhe di testo in un elemento corpus. Il mio codice è simile a questo Corpus(d1$Yes) dove d1$Yesè un fattore con 124 livelli, ognuno contenente una stringa di testo. Per esempio, d1$Yes[246] = "So we can get the boat …
8 r  text-mining 
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.