Word2Vec e Doc2Vec sono sia rappresentazioni distributive che rappresentazioni distribuite?


10

Ho letto che la rappresentazione distributiva si basa sull'ipotesi distributiva secondo cui le parole presenti in un contesto simile tendono ad avere significati simili.

Word2Vec e Doc2Vec sono entrambi modellati secondo questa ipotesi. Ma, nel documento originale, anche loro sono intitolati come Distributed representation of words and phrasese Distributed representation of sentences and documents. Quindi, questi algoritmi sono basati sulla rappresentazione distributiva o sulla rappresentazione distribuita.

Che ne dici di altri modelli come LDA e LSA.

Risposte:


5

In effetti, Word2Vec / Doc2Vec si basa su distributional hypothesisdove il contesto di ogni parola sono le parole vicine. Allo stesso modo, LSA prende l'intero documento come contesto. Entrambe le tecniche risolvono il word embeddingproblema: incorporare le parole in uno spazio vettoriale continuo mantenendo le parole semanticamente correlate vicine.

D'altra parte, LDA non è fatto per risolvere lo stesso problema. Hanno a che fare con un diverso problema chiamato topic modeling, che sta trovando argomenti latenti in una serie di documenti.


Ho ricevuto una risposta dai gruppi di Google affermando che è distribuito e distribuito in diverse prospettive. Distribuzione in termini di ipotesi utilizzate e distribuite in termini di caratteristiche distribuite nello spazio vettoriale.
yazhi,

sì, la rappresentazione è distribuita nel senso che un vettore di parole sta catturando più concetti, ogni concetto è esso stesso un vettore. Ad esempio: potrebbe catturare due concetti in genere e , v q u e e n cattura in genere e . Ecco perché v k i n g - v q u e e nv m a n - v w o m a nvKiongmaleroyalvqueenfemaleroyalvKiong-vqueen~vmun'n-vwomun'n
Tu N.

2

Turian, Joseph, Lev Ratinov e Yoshua Bengio. " Rappresentazioni di parole: un metodo semplice e generale per l'apprendimento semi-supervisionato ." Atti della 48a riunione annuale dell'associazione per la linguistica computazionale. Association for Computational Linguistics, 2010. definisce le rappresentazioni distributive e le rappresentazioni distribuite come segue:

  • FW×CWFwwFcFFwWFwFd<<CFwwdgF

  • Una rappresentazione distribuita è densa, di bassa dimensione e con valore reale. Le rappresentazioni di parole distribuite sono chiamate incorporamenti di parole. Ogni dimensione dell'incorporamento rappresenta una caratteristica latente della parola, si spera di catturare utili proprietà sintattiche e semantiche. Una rappresentazione distribuita è compatta, nel senso che può rappresentare un numero esponenziale di cluster nel numero di dimensioni.

FYI: Qual è la differenza tra vettori di parole, rappresentazioni di parole e incorporamenti vettoriali?


2
La stessa confusione rimane anche nella risposta. Ha proprietà da entrambe le rappresentazioni. Vediamo cosa ha in comune. Distributional: Ha una matrice di dimensioni WxC e quindi ridotta a Wxd, dove d è la dimensione del vettore di incorporamento. Utilizza le dimensioni della finestra per determinare il contesto. Distributed: Vettori densi e di bassa dimensione. Conserva le caratteristiche latenti (proprietà semantiche) in quelle dimensioni.
yazhi,

2

La risposta di Andrey Kutuzov tramite gruppi di Google è stata soddisfacente

Direi che gli algoritmi word2vec sono basati su entrambi.

Quando le persone dicono distributional representation, di solito significano l'aspetto linguistico: il significato è contesto, conoscere la parola dalla sua compagnia e altre citazioni famose.

Ma quando la gente dice distributed representation, per lo più non ha nulla a che fare con la linguistica. Si tratta più dell'aspetto dell'informatica. Se capisco correttamente Mikolov e altri, la parola distributednei loro documenti significa che ogni singolo componente di una rappresentazione vettoriale non ha alcun significato proprio. Le caratteristiche interpretabili (ad esempio i contesti di parole nel caso di word2vec) sono nascoste e distributedtra componenti vettoriali non interpretabili: ogni componente è responsabile di diverse caratteristiche interpretabili e ogni funzione interpretabile è legata a più componenti.

Pertanto, word2vec (e doc2vec) utilizza tecnicamente rappresentazioni distribuite, come un modo per rappresentare la semantica lessicale. E allo stesso tempo si basa concettualmente sull'ipotesi distributiva: funziona solo perché l'ipotesi distributiva è vera (i significati delle parole sono correlati ai loro contesti tipici).

Ma ovviamente spesso i termini distributede distributionalsono usati in modo intercambiabile, aumentando l'incomprensione :)

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.