Sto cercando alcuni suggerimenti su come curare un elenco di parole d'ordine. Qualcuno sa / può consigliare un buon metodo per estrarre elenchi di parole d'ordine dal set di dati stesso per la preelaborazione e il filtro?
I dati:
un'enorme quantità di testo umano di lunghezza variabile (termini di ricerca e frasi intere (fino a 200 caratteri)) per diversi anni. Il testo contiene molto spam (come input di macchine da bot, parole singole, ricerche stupide, ricerche di prodotti ...) e solo un po 'di% sembra essere utile. Mi sono reso conto che a volte (solo molto raramente) le persone cercano nella mia parte ponendo domande davvero interessanti. Queste domande sono così interessanti che penso che valga la pena approfondire per vedere come le persone effettuano ricerche nel tempo e quali argomenti le persone sono state interessate a utilizzare il mio sito Web.
Il mio problema:
è che sto davvero lottando con la preelaborazione (ovvero eliminando lo spam). Ho già provato un elenco di parole d'ordine dal Web (NLTK, ecc.), Ma queste non aiutano molto le mie esigenze in merito a questo set di dati.
Grazie per le tue idee e gente di discussione!
stop words
. Stop-wrods è una lista della maggior parte delle parole comuni in una certa lingua, per esempio I
, the
, a
e così via. Rimuoverai queste parole dal tuo testo prima di iniziare a formare l'algoritmo che prova a identificare quale testo è spam o meno. Non ti ha aiutato a identificare quale testo è spam o meno, può migliorare leggermente il tuo algoritmo di apprendimento.