Il mio libro di testo elenca l'idf come dove
- : numero di documenti
- : numero di documenti contenenti il termine
Wikipedia elenca questa formula come una versione liscia del effettivo . Quello che ho capito: varia da a che sembra intuitivo.
Ma passa da a \ infty, il che sembra così strano ...
So un po 'di smussamento dalla modellazione del linguaggio ma lì aggiungeresti qualcosa al numeratore così come nel denominatore perché sei preoccupato per la massa di probabilità. Ma aggiungere 1 non ha senso per me. Cosa stiamo cercando di realizzare qui?log(N∞log(1+N
log(1+1)∞1