Quali set di dati disponibili gratuitamente posso usare per addestrare un classificatore di testo?
Stiamo cercando di migliorare il coinvolgimento dei nostri utenti raccomandandogli il contenuto più correlato, quindi abbiamo pensato che se avessimo classificato i nostri contenuti in base a un sacco di parole predefinito, potremmo consigliargli di coinvolgere i contenuti ottenendo il loro feedback su un numero casuale di post già classificati prima.
Possiamo usare queste informazioni per raccomandargli impulsi etichettati con quelle classi. Ma abbiamo scoperto che se abbiamo usato un insieme predefinito di parole non correlate al nostro contenuto, il vettore della funzione sarà pieno di zeri, anche le categorie potrebbero non essere pertinenti al nostro contenuto. quindi per questi motivi abbiamo provato un'altra soluzione che raggrupperebbe i nostri contenuti senza classificarli.
Grazie :)