Statistiche e Big Data text-mining

3

Un esempio: regressione di LASSO utilizzando glmnet per il risultato binario

Sto iniziando a dilettarsi con l'uso di glmnetcon LASSO Regressione dove il mio risultato di interesse è dicotomica. Di seguito ho creato un piccolo frame di dati finti: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) …

78 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

2

Come funziona il livello 'Incorporamento' di Keras?

È necessario comprendere il funzionamento del livello 'Incorporamento' nella libreria Keras. Eseguo il seguente codice in Python import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) che fornisce il seguente output …

70 text-mining word-embeddings keras

6

Come abbinare quasi due vettori di stringhe (in R)?

Non sono sicuro di come debba essere definito, quindi correggimi se conosci un termine migliore. Ho due liste. Uno di 55 elementi (ad esempio: un vettore di stringhe), l'altro di 92. I nomi degli elementi sono simili ma non identici. Vorrei trovare il candidato migliore s nella lista 92 alle …

36 r text-mining

6

Classificazione statistica del testo

Sono un programmatore senza background statistico e attualmente sto esaminando diversi metodi di classificazione per un gran numero di documenti diversi che voglio classificare in categorie predefinite. Ho letto di kNN, SVM e NN. Tuttavia, ho qualche problema ad iniziare. Quali risorse mi consigliate? Conosco abbastanza bene il calcolo a …

32 classification information-retrieval text-mining

4

Tecniche di apprendimento automatico per l'analisi delle stringhe?

Ho molte stringhe di indirizzi: 1600 Pennsylvania Ave, Washington, DC 20500 USA Voglio analizzarli nei loro componenti: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA Ma ovviamente i dati sono sporchi: provengono da molti paesi in molte lingue, scritti in modi diversi, contengono errori di ortografia, …

30 machine-learning text-mining

3

In che misura R scala le attività di classificazione del testo? [chiuso]

Sto cercando di accelerare con R. Alla fine voglio usare le librerie R per fare la classificazione del testo. Mi stavo solo chiedendo quali sono le esperienze delle persone riguardo alla scalabilità di R quando si tratta di fare una classificazione del testo. Probabilmente incapperò in dati ad alta dimensione …

30 r machine-learning svm text-mining random-forest

2

Differenza tra Bayes ingenui e Bayes ingenui multinomiali

Ho già avuto a che fare con il classificatore Naive Bayes . Recentemente ho letto di Multinomial Naive Bayes . Anche la probabilità posteriore = (Precedente * Probabilità) / (Evidenza) . L'unica differenza principale (durante la programmazione di questi classificatori) che ho trovato tra Naive Bayes e Multinomial Naive Bayes …

29 bayesian classification text-mining naive-bayes

4

Pacchetti R per eseguire modellazione di argomenti / LDA: solo `topicmodels` e` lda` [chiuso]

Mi sembra che solo due pacchetti R siano in grado di eseguire l' allocazione di Dirichlet latente : Uno è lda, scritto da Jonathan Chang; e l'altro è topicmodelsscritto da Bettina Grün e Kurt Hornik. Quali sono le differenze tra questi due pacchetti, in termini di prestazioni, dettagli di implementazione …

29 r bayesian text-mining topic-models latent-dirichlet-alloc

7

A Naive Bayes, perché preoccuparsi del livellamento di Laplace quando nel set di test abbiamo parole sconosciute?

Oggi stavo leggendo la classifica Naive Bayes. Ho letto, sotto l'intestazione della stima dei parametri con l'aggiunta di un livellamento : Lascia che faccia riferimento a una classe (come Positivo o Negativo) e che faccia riferimento a un token o una parola.cccwww Lo stimatore di massima verosimiglianza per èP( w …

28 machine-learning classification text-mining naive-bayes laplace-smoothing

1

La convalida incrociata è un sostituto adeguato del set di convalida?

Nella classificazione del testo, ho un set di addestramento con circa 800 campioni e un set di test con circa 150 campioni. Il set di test non è mai stato utilizzato e in attesa di essere utilizzato fino alla fine. Sto usando l'intero set di addestramento di 800 campioni, con …

27 machine-learning classification cross-validation text-mining

3

Modelli di argomenti e metodi di ricorrenza delle parole

I modelli di argomenti popolari come LDA di solito raggruppano parole che tendono a ricorrere nello stesso argomento (cluster). Qual è la differenza principale tra tali modelli di argomenti e altri semplici approcci di clustering basati sulla ricorrenza come PMI? (PMI è l'acronimo di Pointwise Mutual Information, e viene utilizzato …

26 machine-learning text-mining natural-language topic-models

2

Bag-of-Words per la classificazione del testo: perché non usare solo le frequenze delle parole invece del TFIDF?

Un approccio comune alla classificazione del testo è quello di formare un classificatore fuori da un "bag-of-word". L'utente prende il testo per essere classificato e conta le frequenze delle parole in ciascun oggetto, seguito da una sorta di taglio per mantenere la matrice risultante di dimensioni gestibili. Vedo spesso che …

24 machine-learning classification text-mining

1

Le prestazioni allo stato dell'arte riportate nell'uso dei vettori di paragrafo per l'analisi del sentiment sono state replicate?

Sono rimasto impressionato dai risultati del documento ICML 2014 " Rappresentazioni distribuite di frasi e documenti " di Le e Mikolov. La tecnica che descrivono, chiamata "vettori di paragrafo", apprende rappresentazioni senza supervisione di paragrafi / documenti arbitrariamente lunghi, basati su un'estensione del modello word2vec. Il documento riporta prestazioni all'avanguardia …

20 text-mining natural-language word-embeddings sentiment-analysis reproducible-research

3

Apprendimento semi-supervisionato, apprendimento attivo e apprendimento profondo per la classificazione

Modifica finale con tutte le risorse aggiornate: Per un progetto, sto applicando algoritmi di apprendimento automatico per la classificazione. Sfida: dati etichettati piuttosto limitati e molti più dati senza etichetta. obiettivi: Applica una classificazione semi-supervisionata Applicare in qualche modo un processo di etichettatura semi-supervisionato (noto come apprendimento attivo) Ho trovato …

19 machine-learning classification software svm text-mining

2

Perché l'elaborazione del linguaggio naturale non rientra nel dominio di Machine Learning? [chiuso]

Allo stato attuale, questa domanda non è adatta al nostro formato di domande e risposte. Ci aspettiamo che le risposte siano supportate da fatti, riferimenti o competenze, ma questa domanda probabilmente solleciterà dibattiti, argomenti, sondaggi o discussioni estese. Se ritieni che questa domanda possa essere migliorata e possibilmente riaperta, visita …

18 machine-learning text-mining natural-language

Domande taggate «text-mining»