Quali sono i vantaggi e gli svantaggi di applicare informazioni reciproche puntuali su una matrice di occorrenze di parole prima di SVD?


11

Un modo per generare incorporamenti di parole è il seguente ( mirror ):

  1. Ottieni un corpora, ad es. "Mi piace volare. Mi piace la PNL. Mi piace l'apprendimento profondo."
  2. Costruisci la parola matrice di occorrenza da essa:

inserisci qui la descrizione dell'immagine

  1. Esegui SVD su X e mantieni le prime k colonne di U.

inserisci qui la descrizione dell'immagine

U1:|V|,1:k

Tra i passaggi 2 e 3, talvolta vengono applicate informazioni reciproche puntuali (ad es. A. Herbelot e EM Vecchi. 2015. Costruire un mondo condiviso: mappare gli spazi semantici teorici-modello . In Atti della Conferenza 2015 sui metodi empirici nell'elaborazione del linguaggio naturale Lisbona, Portogallo .).

Quali sono i vantaggi e gli svantaggi di applicare informazioni reciproche puntuali su una matrice di occorrenze di parole prima di SVD?

Risposte:


11

secondo il libro di Dan Jurafsky e James H. Martin :

"Si scopre, tuttavia, che la semplice frequenza non è la migliore misura dell'associazione tra le parole. Un problema è che la frequenza grezza è molto distorta e non molto discriminante. Se vogliamo sapere quali tipi di contesti sono condivisi da albicocca e ananas ma non dal digitale e dall'informazione, non otterremo una buona discriminazione da parole come la, essa o loro, che si verificano frequentemente con ogni sorta di parole e non sono informative su nessuna parola in particolare. "

a volte sostituiamo questa frequenza grezza con informazioni reciproche puntuali positive:

PPMI(w,c)=max(log2P(w,c)P(w)P(c),0)

PMI da solo mostra quanto è possibile osservare una parola w con una parola di contesto C rispetto all'osservazione indipendente. In PPMI manteniamo solo valori positivi di PMI. Pensiamo a quando PMI è + o - e perché manteniamo solo quelli negativi:

Cosa significa PMI positivo?

  • P(w,c)(P(w)P(c))>1

  • P(w,c)>(P(w)P(c))

  • succede quando e verificano reciprocamente più individualmente come calcio e palla. Vorremmo mantenere questi!wc

Cosa significa PMI negativo?

  • P(w,c)(P(w)P(c))<1

  • P(w,c)<(P(w)P(c))

  • significa che entrambi e o uno di essi tendono ad accadere individualmente! Potrebbe indicare statistiche inaffidabili a causa di dati limitati, altrimenti mostra ricorrenza non informativa, ad esempio "la" e "palla". ('the' compare anche con la maggior parte delle parole.)wc

PMI o in particolare PPMI ci aiuta a cogliere tali situazioni con la ricorrenza informativa.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.