Domande taggate «text-mining»

Si riferisce a un sottoinsieme di data mining relativo all'estrazione di informazioni dai dati sotto forma di testo riconoscendo i modelli. L'obiettivo del text mining è spesso quello di classificare un determinato documento in una di una serie di categorie in modo automatico e di migliorare queste prestazioni in modo dinamico, rendendolo un esempio di apprendimento automatico. Un esempio di questo tipo di text mining sono i filtri antispam utilizzati per la posta elettronica.

3
Un esempio: regressione di LASSO utilizzando glmnet per il risultato binario
Sto iniziando a dilettarsi con l'uso di glmnetcon LASSO Regressione dove il mio risultato di interesse è dicotomica. Di seguito ho creato un piccolo frame di dati finti: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
Come funziona il livello 'Incorporamento' di Keras?
È necessario comprendere il funzionamento del livello 'Incorporamento' nella libreria Keras. Eseguo il seguente codice in Python import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) che fornisce il seguente output …

6
Come abbinare quasi due vettori di stringhe (in R)?
Non sono sicuro di come debba essere definito, quindi correggimi se conosci un termine migliore. Ho due liste. Uno di 55 elementi (ad esempio: un vettore di stringhe), l'altro di 92. I nomi degli elementi sono simili ma non identici. Vorrei trovare il candidato migliore s nella lista 92 alle …
36 r  text-mining 

6
Classificazione statistica del testo
Sono un programmatore senza background statistico e attualmente sto esaminando diversi metodi di classificazione per un gran numero di documenti diversi che voglio classificare in categorie predefinite. Ho letto di kNN, SVM e NN. Tuttavia, ho qualche problema ad iniziare. Quali risorse mi consigliate? Conosco abbastanza bene il calcolo a …





7
A Naive Bayes, perché preoccuparsi del livellamento di Laplace quando nel set di test abbiamo parole sconosciute?
Oggi stavo leggendo la classifica Naive Bayes. Ho letto, sotto l'intestazione della stima dei parametri con l'aggiunta di un livellamento : Lascia che faccia riferimento a una classe (come Positivo o Negativo) e che faccia riferimento a un token o una parola.cccwww Lo stimatore di massima verosimiglianza per èP( w …



2
Bag-of-Words per la classificazione del testo: perché non usare solo le frequenze delle parole invece del TFIDF?
Un approccio comune alla classificazione del testo è quello di formare un classificatore fuori da un "bag-of-word". L'utente prende il testo per essere classificato e conta le frequenze delle parole in ciascun oggetto, seguito da una sorta di taglio per mantenere la matrice risultante di dimensioni gestibili. Vedo spesso che …

1
Le prestazioni allo stato dell'arte riportate nell'uso dei vettori di paragrafo per l'analisi del sentiment sono state replicate?
Sono rimasto impressionato dai risultati del documento ICML 2014 " Rappresentazioni distribuite di frasi e documenti " di Le e Mikolov. La tecnica che descrivono, chiamata "vettori di paragrafo", apprende rappresentazioni senza supervisione di paragrafi / documenti arbitrariamente lunghi, basati su un'estensione del modello word2vec. Il documento riporta prestazioni all'avanguardia …

3
Apprendimento semi-supervisionato, apprendimento attivo e apprendimento profondo per la classificazione
Modifica finale con tutte le risorse aggiornate: Per un progetto, sto applicando algoritmi di apprendimento automatico per la classificazione. Sfida: dati etichettati piuttosto limitati e molti più dati senza etichetta. obiettivi: Applica una classificazione semi-supervisionata Applicare in qualche modo un processo di etichettatura semi-supervisionato (noto come apprendimento attivo) Ho trovato …

2
Perché l'elaborazione del linguaggio naturale non rientra nel dominio di Machine Learning? [chiuso]
Allo stato attuale, questa domanda non è adatta al nostro formato di domande e risposte. Ci aspettiamo che le risposte siano supportate da fatti, riferimenti o competenze, ma questa domanda probabilmente solleciterà dibattiti, argomenti, sondaggi o discussioni estese. Se ritieni che questa domanda possa essere migliorata e possibilmente riaperta, visita …

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.