Devo affrontare un problema di classificazione del testo. Un crawler Web esegue la scansione delle pagine Web di un determinato dominio e per ogni pagina Web voglio scoprire se appartiene a una sola classe specifica o meno. Cioè, se chiamo questa classe positiva , ogni pagina web sottoposta a scansione appartiene alla classe positiva o alla classe non positiva .
Ho già un ampio set di pagine Web di formazione per la classe Positive . Ma come creare un set di formazione per la classe Non positiva che sia il più rappresentativo possibile? Voglio dire, potrei praticamente usare ciascuno e tutto per quella classe. Posso semplicemente raccogliere alcune pagine arbitrarie che sicuramente non appartengono alla classe Positive ? Sono sicuro che le prestazioni di un algoritmo di classificazione del testo (preferisco utilizzare un algoritmo Naive Bayes) dipendono fortemente da quali pagine Web scelgo per la classe Non positiva .
Quindi cosa devo fare? Qualcuno può darmi un consiglio? Grazie mille!