Sto lavorando a un problema di classificazione del testo usando Random Forest come classificatori e un approccio bag-of-word. Sto usando l'implementazione di base di Random Forests (quella presente in scikit), che crea una condizione binaria su una singola variabile ad ogni divisione. Detto questo, c'è una differenza tra l'uso di semplici funzioni tf (frequenza di termine). dove ogni parola ha un peso associato che rappresenta il numero di occorrenze nel documento, o tf-idf (frequenza del termine * frequenza inversa del documento), dove anche la frequenza del termine viene moltiplicata per un valore che rappresenta il rapporto tra il numero totale di documenti e il numero di documenti contenenti la parola)?
A mio avviso, non ci dovrebbe essere alcuna differenza tra questi due approcci, poiché l'unica differenza è un fattore di ridimensionamento su ciascuna funzionalità, ma poiché la divisione viene eseguita a livello di singole funzionalità, ciò non dovrebbe fare la differenza.
Ho ragione nel mio ragionamento?