Domande taggate «text-mining»

Si riferisce a un sottoinsieme di data mining relativo all'estrazione di informazioni dai dati sotto forma di testo riconoscendo i modelli. L'obiettivo del text mining è spesso quello di classificare un determinato documento in una di una serie di categorie in modo automatico e di migliorare queste prestazioni in modo dinamico, rendendolo un esempio di apprendimento automatico. Un esempio di questo tipo di text mining sono i filtri antispam utilizzati per la posta elettronica.

2
Perché n-gram viene utilizzato nell'identificazione della lingua del testo anziché nelle parole?
In due famose librerie di identificazione linguistica, Compact Language Detector 2 per C ++ e rivelatore di lingua per Java, entrambi utilizzavano n-grammi (basati sui caratteri) per estrarre funzionalità di testo. Perché un bag-of-word (parola singola / dizionario) non viene utilizzato e qual è il vantaggio e lo svantaggio di …



5
Buoni libri sull'estrazione del testo?
Ciao, volevo sapere se ci sono alcuni buoni libri sull'estrazione del testo e la classificazione con alcuni casi studio. Altrimenti alcuni giornali / riviste accessibili al pubblico farebbero. Se illustrano i loro esempi con R ancora meglio. Non sto cercando un manuale passo passo, ma qualcosa che illustri i pro …

1
IDF incrementale (frequenza inversa dei documenti)
In un'applicazione di mining di testo, un approccio semplice consiste nell'utilizzare l' euristica per creare vettori come rappresentazioni sparse e compatte dei documenti. Questo va bene per l'impostazione batch, in cui l'intero corpus è noto a priori, poiché l' richiede l'intero corpusi d ft f- io dftf−idftf-idfio dfidfidf i d …

1
Comprensione dell'uso dei logaritmi nel logaritmo TF-IDF
Stavo leggendo: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Ma non riesco a capire esattamente perché la formula sia stata costruita così com'è. Cosa capisco: a un certo livello l'iDF dovrebbe misurare la frequenza con cui appare un termine S in ciascuno dei documenti, diminuendo di valore man mano che il termine appare più frequentemente. Da …

3
Per quanto riguarda l'utilizzo del modello bigram (N-grammo) per costruire il vettore di funzionalità per il documento di testo
Un approccio tradizionale alla costruzione di feature per l'estrazione del testo è l'approccio bag-of-words e può essere migliorato usando tf-idf per impostare il vettore di feature che caratterizza un determinato documento di testo. Al momento, sto cercando di utilizzare il modello di linguaggio bi-gram o (N-gram) per creare il vettore …

1
Questa interpretazione della scarsità è accurata?
Secondo la documentazione della removeSparseTermsfunzione dal tmpacchetto, questo è ciò che comporta la scarsità: A term-document matrix where those terms from x are removed which have at least a sparse percentage of empty (i.e., terms occurring 0 times in a document) elements. I.e., the resulting matrix contains only terms with …



1
Utilizzo di strumenti di elaborazione del testo / elaborazione del linguaggio naturale per l'econometria
Non sono sicuro che questa domanda sia completamente appropriata qui, in caso contrario, si prega di eliminare. Sono uno studente laureato in economia. Per un progetto che indaga questioni relative alle assicurazioni sociali, ho accesso a un gran numero di casi amministrativi (> 200.000) che si occupano di valutazioni di …

1
Come confrontare gli eventi osservati con quelli previsti?
Supponiamo di avere un campione di frequenze di 4 possibili eventi: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 e ho le probabilità attese dei miei eventi: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Con la somma delle frequenze osservate dei …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
Comprensione e applicazione dell'analisi del sentiment
Mi era appena stato assegnato un progetto di conduzione dell'analisi del sentiment per alcune raccolte di documenti. Secondo Google, sono emerse molte ricerche relative al sentimento. Le mie domande sono: Quali sono i principali metodi / algoritmi per l'analisi del sentiment nel campo dell'apprendimento automatico e dell'analisi statistica? Ci sono …

4
Come eseguire più test chi-quadrato post-hoc su un tavolo 2 X 3?
Il mio set di dati comprende la mortalità totale o la sopravvivenza di un organismo in tre tipi di siti: costiera, midchannel e offshore. I numeri nella tabella seguente rappresentano il numero di siti. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Vorrei sapere se …
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.