Stavo leggendo:
https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition
Ma non riesco a capire esattamente perché la formula sia stata costruita così com'è.
Cosa capisco:
a un certo livello l'iDF dovrebbe misurare la frequenza con cui appare un termine S in ciascuno dei documenti, diminuendo di valore man mano che il termine appare più frequentemente.
Da quella prospettiva
Inoltre la frequenza dei termini può essere giustamente descritta come
Quindi la misura
è in qualche modo proporzionale alla frequenza con cui un termine appare in un determinato documento e alla sua singolarità rispetto al set di documenti.
Quello che non capisco
Ma la formula fornita lo descrive come
Vorrei capire la necessità dei logaritmi descritti nella definizione. Tipo, perché sono lì? Quale aspetto sottolineano?