Comprensione dell'uso dei logaritmi nel logaritmo TF-IDF


10

Stavo leggendo:

https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition

Ma non riesco a capire esattamente perché la formula sia stata costruita così com'è.

Cosa capisco:

a un certo livello l'iDF dovrebbe misurare la frequenza con cui appare un termine S in ciascuno dei documenti, diminuendo di valore man mano che il termine appare più frequentemente.

Da quella prospettiva

ioDF(S)=# di documenti# di documenti contenenti S

Inoltre la frequenza dei termini può essere giustamente descritta come

tf(S,D)=# delle occorrenze di S nel documento D# numero massimo di occorrenze per qualsiasi stringa Q nel documento D

Quindi la misura

ioDF(S)×tf(S,D)

è in qualche modo proporzionale alla frequenza con cui un termine appare in un determinato documento e alla sua singolarità rispetto al set di documenti.

Quello che non capisco

Ma la formula fornita lo descrive come

(log(ioDF(S)))(12+log(12tf(S,D)))

Vorrei capire la necessità dei logaritmi descritti nella definizione. Tipo, perché sono lì? Quale aspetto sottolineano?

Risposte:


9

P(UN,B)=P(UN)P(B)log(P(UN,B))=log(P(UN))+log(P(B))

Come l'articolo di Wikipedia che link osserva, la giustificazione di TF-IDF non è ancora ben definita; è / era un'euristica che vogliamo rendere rigoroso, non un concetto rigoroso che vogliamo trasferire nel mondo reale. Come accennato da @ Anony-Mousse come un'ottima lettura della questione è la comprensione del documento inverso di Robertson Frequenza: sugli argomenti teorici per IDF . Fornisce un'ampia panoramica dell'intero quadro e tenta di basare la metodologia TF-IDF sulla ponderazione della pertinenza dei termini di ricerca.


4
Alcune giustificazioni di TF-IDF possono essere trovate in "Uno studio formale sull'euristica del recupero di informazioni", 2004 di Fang, Hui et al ( pdf ).
Alexey Grigorev,

3
Penso che questo sia il miglior riferimento per le giustificazioni TF-IDF: Robertson, S. (2004). "Comprensione della frequenza inversa dei documenti: argomenti teorici per IDF". Journal of Documentation 60 (5): 503–520.
Ha QUIT - Anony-Mousse il

Grazie per i vostri commenti, signori (e grazie speciali Alexey per la correzione \log, li dimentico costantemente); +1 per entrambi. Ho visto il documento di Robertson e ho pensato di aggiungerlo; è davvero una buona lettura, lo aggiungerò nel corpo principale.
usεr11852,

@ Anony-Mousse (pdf)
Walrus the Cat

Voglio sapere perché al posto di "numero massimo di occorrenze per qualsiasi stringa Q nel documento D" number of occurrences for all strings in document D. Perché vogliamo il conteggio della parola più comune invece del conteggio di tutte le parole?
Xeoncross,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.