In che modo gli n-grammi diventano controproducenti?

13

Quando si esegue l'elaborazione del linguaggio naturale, si può prendere un corpus e valutare la probabilità che la parola successiva si verifichi in una sequenza di n. n viene solitamente scelto come 2 o 3 (bigrammi e trigrammi).

Esiste un punto noto in cui il rilevamento dei dati per l'ennesima catena diventa controproducente, dato il tempo necessario per classificare un determinato corpus una volta a quel livello? O dato il tempo necessario per cercare le probabilità da un dizionario (struttura dati)?

text-mining natural-language

— jonsca
fonte

in relazione con quest'altro filo sulla maledizione della dimensionalità

— Antoine,

2

Esiste un punto noto in cui il rilevamento dei dati per l'ennesima catena diventa controproducente, dato il tempo necessario per classificare un determinato corpus una volta a quel livello?

Dovresti cercare perplessità rispetto a tabelle o grafici di dimensioni n-grammo .

Esempi:

http://www.itl.nist.gov/iad/mig/publications/proceedings/darpa97/html/seymore1/image2.gif :

http://images.myshared.ru/17/1041315/slide_16.jpg :

http://images.slideplayer.com/13/4173894/slides/slide_45.jpg :

La perplessità dipende dal modello linguistico, dalle dimensioni di n-grammi e dal set di dati. Come al solito, esiste un compromesso tra la qualità del modello linguistico e il tempo impiegato per l'esecuzione. I migliori modelli linguistici al giorno d'oggi si basano su reti neurali, quindi la scelta della dimensione di n-grammi è meno problematica (ma è necessario scegliere le dimensioni del filtro se si utilizza la CNN, tra gli altri iperparametri ...).

— Franck Dernoncourt
fonte

12

La tua misura di "controproducente" potrebbe essere arbitraria, ad es. con molta memoria veloce potrebbe essere elaborato più velocemente (più ragionevolmente).

Dopo aver detto ciò, la crescita esponenziale entra in gioco e dalle mie stesse osservazioni sembra essere intorno al segno 3-4. (Non ho visto studi specifici).

I trigrammi hanno un vantaggio rispetto ai bigrammi ma è piccolo. Non ho mai implementato un 4 grammi, ma il miglioramento sarà molto meno. Probabilmente un simile ordine di grandezza diminuisce. Per esempio. se i trigrammi migliorano le cose del 10% rispetto ai bigrammi, una stima ragionevole per i 4 grammi potrebbe essere un miglioramento dell'1% rispetto ai trigrammi.

Tuttavia, il vero assassino è la memoria e la diluizione dei conteggi numerici. Con un $10,000$ parola unica corpus, quindi ha bisogno di un modello bigram $10000^2$ valori; sarà necessario un modello di trigramma $10000^3$ ; e saranno necessari 4 grammi $10000^4$ . Ora, ok, questi saranno array sparsi, ma ottieni l'immagine. C'è una crescita esponenziale del numero di valori e le probabilità diventano molto più piccole a causa di una diluizione dei conteggi di frequenza. La differenza tra 0 o 1 osservazione diventa molto più importante e tuttavia le osservazioni in frequenza dei singoli 4 grammi diminuiranno.

Avrai bisogno di un corpus enorme per compensare l'effetto di diluizione, ma la Legge di Zipf dice che un enorme corpus avrà anche parole ancora più uniche ...

Suppongo che questo sia il motivo per cui vediamo molti modelli, implementazioni e demo di bigram e trigram; ma nessun esempio di 4 grammi completamente funzionante.

— Winwaed
fonte

2

Un buon riassunto Le pagine 48-53 ("lunga diatriba cinica sconclusionata") del seguente documento forniscono maggiori dettagli al riguardo (il documento include anche alcuni risultati per n-grammi di ordine superiore) research.microsoft.com/~joshuago/longcombine.pdf

— Yevgeny

2

Il link è morto. Ecco il riferimento completo e il link alla versione arXiv: Joshua T. Goodman (2001). Un po 'di progresso nella modellazione del linguaggio: versione estesa. Ricerca Microsoft: Redmond, WA (USA). Rapporto tecnico MSR-TR-2001-72.

— scozy