In quale circostanza la lemmatizzazione non è un passaggio consigliabile quando si lavora con i dati di testo?

Trascurando possibili restrizioni computazionali, esistono applicazioni generali in cui la lemmatizzazione sarebbe un passo controproducente durante l'analisi dei dati di testo?

Ad esempio, la lemmatizzazione sarebbe qualcosa che non si fa quando si costruisce un modello sensibile al contesto?

Per riferimento, la lemmatizzazione per dictinory.com è l'atto di raggruppare le forme flesse di (una parola) per l'analisi come un singolo oggetto.

Ad esempio, la parola "cucinare" è il lemma della parola "cucinare". L'atto di lemmatizzazione è, ad esempio, la sostituzione della parola cottura con cuoco dopo aver tokenizzato i dati del testo. Inoltre, la parola "peggio" ha "cattivo" come suo lemma, e come l'esempio precedente che sostituisce la parola "peggio" con "cattivo" è l'azione della lemmatizzazione.

nlp data-cleaning

— Zer0k
fonte

Penso che questa domanda sarebbe migliorata con una breve descrizione di cosa sia la lemmatizzazione

— kbrose

@kbrose Bene, posso aggiungere una breve descrizione. Grazie per il suggerimento

— Zer0k,

Grazie! Domanda interessante. Ci sono cose semplici come parte del tagging vocale che sarebbe sicuramente danneggiata dalla lemmatizzazione. Curioso di vedere se ce ne sono altri

— kbrose

Attività di PNL che sarebbero danneggiate dalla lemmatizzazione:

1) Classificazione tesa

      sentence        |  tense
------------------------------------
He cooked a nice meal |  past
He cooks a nice meal  |  present

La sequenza di caratteri alla fine dei verbi può aiutare in questo compito. I verbi cotte e cuochi differiscono alle ultime personaggi Ed e s repectively.

Con la lemmatizzazione, questa informazione viene persa. Entrambi i verbi diventano cuoco , facendo sembrare entrambe le frasi (in questo caso) al tempo presente.

2) Identificazione dell'autore

Dato

una serie di documenti $\mathcal{P}$ scritto dall'autore $a$ ,
una serie di documenti $\mathcal{Q}$ scritto dall'autore $b$ ,
una serie di documenti $\mathcal{S}$ scritto da entrambi gli autori $a$ o $b$ ,

classificare se un documento $s\in\mathcal{S}$ è scritto dall'autore $a$ o $b$ .

Un modo per raggiungere questo obiettivo è guardare l'istogramma delle parole presenti in $s$ e confrontalo con i documenti di $\mathcal{P}$ e $\mathcal{Q}$ e seleziona quello più simile.

Questo funziona perché autori diversi usano determinate parole con frequenze diverse. Tuttavia, usando la lemmatizzazione, si distorcono queste frequenze compromettendo le prestazioni del modello.

— Bruno Lubascher
fonte

Quindi, fondamentalmente, quando la struttura e lo stile della frase / del documento sono rilevanti, la lemmatizzazione è qualcosa di dannoso. L'ho capito bene?

— Zer0k,

@ Zer0k, corretto. Quando le caratteristiche importanti sono granulari sulle parole, non si desidera la lemmatizzazione. Se hai compiti di livello superiore, ad esempio l'analisi del sentimento, non hai bisogno di questa granularità. "Questo è il peggior ristorante" o "Questo è il cattivo ristorante", entrambi ti daranno un sentimento negativo .

— Bruno Lubascher,

Temo di non essere d'accordo con l'esempio dell'identificazione dell'autore. Soprattutto con testi brevi la lemmatizzazione aiuta molto. Altrimenti i vettori delle funzioni sono troppo scarsi.

— Claude,

@Claude, puoi per favore espandere un po 'su questo? Cosa definisci come testo breve?

— Zer0k,

@ 200 token Zer0k o fino a circa 1000.

— Claude,