Domande taggate «natural-language»

L'elaborazione del linguaggio naturale è un insieme di tecniche di linguistica, intelligenza artificiale, apprendimento automatico e statistica che mirano a elaborare e comprendere le lingue umane.




2
Perché n-gram viene utilizzato nell'identificazione della lingua del testo anziché nelle parole?
In due famose librerie di identificazione linguistica, Compact Language Detector 2 per C ++ e rivelatore di lingua per Java, entrambi utilizzavano n-grammi (basati sui caratteri) per estrarre funzionalità di testo. Perché un bag-of-word (parola singola / dizionario) non viene utilizzato e qual è il vantaggio e lo svantaggio di …

2
Come applicare le reti neurali su problemi di classificazione multi-etichetta?
Descrizione: Lascia che il dominio problematico sia la classificazione dei documenti in cui esiste una serie di vettori di caratteristiche, ciascuno appartenente a 1 o più classi. Ad esempio, un documento doc_1potrebbe appartenere Sportse Englishcategorie. Domanda: Usando la rete neurale per la classificazione, quale sarebbe l'etichetta per un vettore caratteristica? …

3
In che modo il modello skip-gram di Word2Vec genera i vettori di output?
Sto riscontrando problemi nel comprendere il modello skip-gram dell'algoritmo Word2Vec. Nel bag-of-word continuo è facile vedere come le parole di contesto possano "adattarsi" alla rete neurale, dal momento che in pratica le si calcola in media dopo aver moltiplicato ciascuna delle rappresentazioni di codifica a caldo singolo con la matrice …

1
Algoritmi di incorporamento delle parole in termini di prestazioni
Sto cercando di incorporare circa 60 milioni di frasi in uno spazio vettoriale , quindi calcolare la somiglianza del coseno tra loro. Sto usando sklearn CountVectorizercon una funzione tokenizer personalizzata che produce unigrammi e bigrammi. Si scopre che per ottenere rappresentazioni significative, devo consentire un numero enorme di colonne, lineare …

1
Chiarimento sulla massimizzazione delle aspettative
Ho trovato un tutorial molto utile per quanto riguarda l' algoritmo EM . L'esempio e l'immagine del tutorial sono semplicemente geniali. Domanda correlata sul calcolo delle probabilità come funziona la massimizzazione delle aspettative? Ho un'altra domanda su come collegare la teoria descritta nell'esercitazione all'esempio. gtgtg_tlogP( x ; Θ )log⁡P(x;Θ)\log P(x;\Theta)gt( …

1
Quali sono i vantaggi e gli svantaggi di applicare informazioni reciproche puntuali su una matrice di occorrenze di parole prima di SVD?
Un modo per generare incorporamenti di parole è il seguente ( mirror ): Ottieni un corpora, ad es. "Mi piace volare. Mi piace la PNL. Mi piace l'apprendimento profondo." Costruisci la parola matrice di occorrenza da essa: Esegui SVD su XXX e mantieni le prime kkk colonne di U. U1:|V|,1:kU1:|V|,1:kU_{1:|V|,1:k} …


2
Gestire parole sconosciute nelle attività di modellazione del linguaggio usando LSTM
Per un'attività di elaborazione del linguaggio naturale (NLP) si usano spesso i vettori word2vec come incorporamento per le parole. Tuttavia, potrebbero esserci molte parole sconosciute che non vengono catturate dai vettori word2vec semplicemente perché queste parole non vengono visualizzate abbastanza spesso nei dati di addestramento (molte implementazioni usano un conteggio …


1
Comprensione dell'uso dei logaritmi nel logaritmo TF-IDF
Stavo leggendo: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Ma non riesco a capire esattamente perché la formula sia stata costruita così com'è. Cosa capisco: a un certo livello l'iDF dovrebbe misurare la frequenza con cui appare un termine S in ciascuno dei documenti, diminuendo di valore man mano che il termine appare più frequentemente. Da …

3
Per quanto riguarda l'utilizzo del modello bigram (N-grammo) per costruire il vettore di funzionalità per il documento di testo
Un approccio tradizionale alla costruzione di feature per l'estrazione del testo è l'approccio bag-of-words e può essere migliorato usando tf-idf per impostare il vettore di feature che caratterizza un determinato documento di testo. Al momento, sto cercando di utilizzare il modello di linguaggio bi-gram o (N-gram) per creare il vettore …

2
Come posso raggruppare le stringhe per temi comuni?
Sto tentando di raggruppare, ad esempio, stringhe sulla programmazione con altre stringhe sulla programmazione, stringhe sulla fisica con altre stringhe sulla fisica, ecc., Per una vasta gamma di argomenti. Nonostante l'evidente aspetto linguistico teorico del problema, sto cercando di farlo utilizzando la programmazione / il software. Il fatiscente: dato un …

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.