Un approccio comune alla classificazione del testo è quello di formare un classificatore fuori da un "bag-of-word". L'utente prende il testo per essere classificato e conta le frequenze delle parole in ciascun oggetto, seguito da una sorta di taglio per mantenere la matrice risultante di dimensioni gestibili.
Vedo spesso che gli utenti costruiscono il loro vettore di funzioni usando TFIDF. In altre parole, le frequenze del testo annotate sopra sono appesantite dalla frequenza delle parole in corpus. Vedo perché TFIDF sarebbe utile per selezionare le parole "più distintive" di un determinato documento per, per esempio, mostrarle a un analista umano. Ma nel caso della categorizzazione del testo usando tecniche ML supervisionate standard, perché preoccuparsi del downweight per la frequenza dei documenti nel corpus? Lo studente stesso non deciderà l'importanza da assegnare a ciascuna parola / combinazione di parole? Le sarei grato per i tuoi pensieri su quale valore aggiunge l'IDF, se presente.