Borsa di parole vs modello spaziale vettoriale?


12

Qual è / sono le differenze tra questi modelli di rappresentazione del testo: sacco di parole e modello dello spazio vettoriale?


Bag of words è un set che rappresenta parole uniche come riscontro. Il termine spazio vettoriale è un vettore booleano sparsa che registra anche la posizione della parola. Credo.
user122160

Risposte:


15

Bag-of-word e modello di spazio vettoriale fanno riferimento a diversi aspetti della caratterizzazione di un corpo di testo come un documento. Sono descritti bene nel libro di testo "Elaborazione del linguaggio e del parlato" di Jurafsky e Martin, 2009, nella sezione 23.1 sul recupero delle informazioni. Un riferimento più conciso è "Introduzione al recupero delle informazioni" di Manning, Raghavan e Schütze, 2008, nella sezione "Il modello dello spazio vettoriale per il punteggio".

Bag-of-words si riferisce al tipo di informazioni che è possibile estrarre da un documento (vale a dire parole unigram). Il modello dello spazio vettoriale si riferisce alla struttura dei dati per ciascun documento (vale a dire, un vettore caratteristica di coppie di pesi termine e termine). Entrambi gli aspetti si completano a vicenda.

Più specificamente:

Bag-of-words : per un determinato documento, si estraggono solo le parole unigram (ovvero i termini) per creare un elenco di parole non ordinate. Nessun tag POS, nessuna sintassi, nessuna semantica, nessuna posizione, nessun bigrams, nessun trigramma. Solo le parole unigram stesse, rendendo un mucchio di parole per rappresentare il documento. Quindi: bag-of-words .

Modello di spazio vettoriale : dato il sacco di parole che hai estratto dal documento, crei un vettore di funzione per il documento, in cui ogni funzione è una parola (termine) e il valore della funzione è un peso di termine. Il termine peso potrebbe essere:

  • un valore binario (con 1 che indica che il termine si è verificato nel documento e 0 che indica che non lo è);
  • un valore di frequenza del termine (che indica quante volte il termine si è verificato nel documento); o
  • un valore TF-IDF (ad es. un piccolo numero in virgola mobile come 1.23).

L'intero documento è quindi un vettore di funzione e ogni vettore di funzione corrisponde a un punto in uno spazio vettoriale . Il modello per questo spazio vettoriale è tale che esiste un asse per ogni termine nel vocabolario, e quindi lo spazio vettoriale è V- dimensionale, dove V è la dimensione del vocabolario. Il vettore dovrebbe quindi essere concettualmente anche V- dimensionale con una caratteristica per ogni termine del vocabolario. Tuttavia, poiché il vocabolario può essere ampio (nell'ordine di V = 100.000 s di termini), il vettore di funzionalità di un documento in genere conterrà solo i termini presenti in quel documento e ometterà i termini che non lo erano. Tale vettore di funzionalità è considerato scarso .

Una rappresentazione vettoriale di esempio di un documento potrebbe quindi apparire così:

DOCUMENT_ID_42 LABEL_POLITICS a 55 ability 1 about 5 absent 2 abuse 1 access 1
accompanied 1 accompanying 2 according 2 account 1 accounted 1 accurate 1
acknowledge 4 activities 1 actual 1 actually 2 administering 1 ...

dove questo vettore di esempio ha un ID documento (ad es. 42), un'etichetta di verità (ad es. politica) e un elenco di caratteristiche e valori di caratteristiche comprendente coppie di termini di termini e termini. Qui, si può vedere che la parola "assente" è stata ripetuta 2 volte in questo documento.


1

Usando Bag of Words assegni la frequenza delle parole all'elemento della matrice del termine del documento e nello spazio del modello del modello spazio vettoriale gli elementi del documento sono abbastanza generali fintanto che le operazioni (prodotto punto) nello spazio del vettore hanno senso (pesi tf-idf, per esempio)?


Sì, sto anche pensando che VSM è una versione migliorata del bag-of-word.
samsamara,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.