PNL - perché "non" una parola d'arresto?


18

Sto cercando di rimuovere le parole di arresto prima di eseguire la modellazione degli argomenti. Ho notato che alcune parole di negazione (no, né mai, nessuna, ecc.) Sono generalmente considerate parole di stop. Ad esempio, NLTK, spacy e sklearn includono "non" nei loro elenchi di parole di arresto. Tuttavia, se rimuoviamo "non" da queste frasi seguenti, perdono il significato significativo e ciò non sarebbe accurato per la modellazione degli argomenti o l'analisi dei sentimenti.

1). StackOverflow is helpful      => StackOverflow helpful
2). StackOverflow is not helpful  => StackOverflow helpful

Qualcuno può spiegare perché queste parole di negazione sono in genere considerate parole ferme?


2
Se stai facendo un'analisi semantica delle frasi, ovviamente i connettivi logici sono importanti: (1) iff not (2). Se si intende modellare la logica di queste frasi, tenerle fuori dalla borsa degli arresti. Di solito vengono gettati lì perché dal punto di vista del data mining, la presenza di "no" in un documento non ci dirà molto sull'argomento per aiutarci a distinguerlo dagli altri documenti; non è abbastanza raro. Probabilmente ci sono altri motivi per ignorarli nelle attività nlp.
Hunan Rostomyan,

Risposte:


20

Le parole di stop sono generalmente pensate come "le parole più comuni in una lingua". Tuttavia, sono possibili altre definizioni basate su diverse attività.

Ha chiaramente senso considerare "non" come una parola d'arresto se il tuo compito si basa sulle frequenze delle parole (ad es. Analisi tf-idf per la classificazione dei documenti).

Se ti preoccupi del contesto (ad es. Analisi dei sentimenti ) del testo, potrebbe avere senso trattare le parole di negazione in modo diverso. La negazione modifica la cosiddetta valenza di un testo. Questo deve essere trattato con cura e di solito non è banale. Un esempio potrebbe essere il corpus di negazione di Twitter. Una spiegazione dell'approccio è fornita in questo documento .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.