In che modo gli n-grammi diventano controproducenti?


13

Quando si esegue l'elaborazione del linguaggio naturale, si può prendere un corpus e valutare la probabilità che la parola successiva si verifichi in una sequenza di n. n viene solitamente scelto come 2 o 3 (bigrammi e trigrammi).

Esiste un punto noto in cui il rilevamento dei dati per l'ennesima catena diventa controproducente, dato il tempo necessario per classificare un determinato corpus una volta a quel livello? O dato il tempo necessario per cercare le probabilità da un dizionario (struttura dati)?


in relazione con quest'altro filo sulla maledizione della dimensionalità
Antoine,

Risposte:


2

Esiste un punto noto in cui il rilevamento dei dati per l'ennesima catena diventa controproducente, dato il tempo necessario per classificare un determinato corpus una volta a quel livello?

Dovresti cercare perplessità rispetto a tabelle o grafici di dimensioni n-grammo .

Esempi:

http://www.itl.nist.gov/iad/mig/publications/proceedings/darpa97/html/seymore1/image2.gif :

inserisci qui la descrizione dell'immagine

http://images.myshared.ru/17/1041315/slide_16.jpg :

inserisci qui la descrizione dell'immagine

http://images.slideplayer.com/13/4173894/slides/slide_45.jpg :

inserisci qui la descrizione dell'immagine

La perplessità dipende dal modello linguistico, dalle dimensioni di n-grammi e dal set di dati. Come al solito, esiste un compromesso tra la qualità del modello linguistico e il tempo impiegato per l'esecuzione. I migliori modelli linguistici al giorno d'oggi si basano su reti neurali, quindi la scelta della dimensione di n-grammi è meno problematica (ma è necessario scegliere le dimensioni del filtro se si utilizza la CNN, tra gli altri iperparametri ...).


12

La tua misura di "controproducente" potrebbe essere arbitraria, ad es. con molta memoria veloce potrebbe essere elaborato più velocemente (più ragionevolmente).

Dopo aver detto ciò, la crescita esponenziale entra in gioco e dalle mie stesse osservazioni sembra essere intorno al segno 3-4. (Non ho visto studi specifici).

I trigrammi hanno un vantaggio rispetto ai bigrammi ma è piccolo. Non ho mai implementato un 4 grammi, ma il miglioramento sarà molto meno. Probabilmente un simile ordine di grandezza diminuisce. Per esempio. se i trigrammi migliorano le cose del 10% rispetto ai bigrammi, una stima ragionevole per i 4 grammi potrebbe essere un miglioramento dell'1% rispetto ai trigrammi.

Tuttavia, il vero assassino è la memoria e la diluizione dei conteggi numerici. Con un10,000 parola unica corpus, quindi ha bisogno di un modello bigram 100002valori; sarà necessario un modello di trigramma100003; e saranno necessari 4 grammi100004. Ora, ok, questi saranno array sparsi, ma ottieni l'immagine. C'è una crescita esponenziale del numero di valori e le probabilità diventano molto più piccole a causa di una diluizione dei conteggi di frequenza. La differenza tra 0 o 1 osservazione diventa molto più importante e tuttavia le osservazioni in frequenza dei singoli 4 grammi diminuiranno.

Avrai bisogno di un corpus enorme per compensare l'effetto di diluizione, ma la Legge di Zipf dice che un enorme corpus avrà anche parole ancora più uniche ...

Suppongo che questo sia il motivo per cui vediamo molti modelli, implementazioni e demo di bigram e trigram; ma nessun esempio di 4 grammi completamente funzionante.


2
Un buon riassunto Le pagine 48-53 ("lunga diatriba cinica sconclusionata") del seguente documento forniscono maggiori dettagli al riguardo (il documento include anche alcuni risultati per n-grammi di ordine superiore) research.microsoft.com/~joshuago/longcombine.pdf
Yevgeny

2
Il link è morto. Ecco il riferimento completo e il link alla versione arXiv: Joshua T. Goodman (2001). Un po 'di progresso nella modellazione del linguaggio: versione estesa. Ricerca Microsoft: Redmond, WA (USA). Rapporto tecnico MSR-TR-2001-72.
scozy
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.