Sto programmando di utilizzare il classificatore SVM (scikit linear support vector machine) per la classificazione del testo su un corpus costituito da 1 milione di documenti etichettati. Quello che sto pianificando di fare è che, quando un utente inserisce una parola chiave, il classificatore prima lo classificherà in una categoria, quindi una successiva query di recupero delle informazioni avverrà all'interno dei documenti di quella categoria di categorie. Ho alcune domande:
- Come posso confermare che la classificazione non richiederà molto tempo? Non voglio che gli utenti debbano passare il tempo ad aspettare il completamento di una classificazione per ottenere risultati migliori.
- L'uso della libreria scikit di Python per siti Web / applicazioni Web è adatto a questo?
- Qualcuno sa in che modo Amazon o flipkart eseguono la classificazione sulle query degli utenti o usano una logica completamente diversa?