Oggi stavo leggendo la classifica Naive Bayes. Ho letto, sotto l'intestazione della stima dei parametri con l'aggiunta di un livellamento :
Lascia che faccia riferimento a una classe (come Positivo o Negativo) e che faccia riferimento a un token o una parola.
Lo stimatore di massima verosimiglianza per è
Questa stima di potrebbe essere problematica poiché ci darebbe probabilità per documenti con parole sconosciute. Un modo comune per risolvere questo problema è utilizzare il livellamento di Laplace.
Lascia che V sia l'insieme di parole nell'insieme di addestramento, aggiungi un nuovo elemento (per sconosciuto) all'insieme di parole.
Definisci
dove riferisce al vocabolario (le parole nel set di addestramento).
In particolare, qualsiasi parola sconosciuta avrà probabilità
La mia domanda è questa: perché dovremmo preoccuparci di questo smoothing di Laplace? Se queste parole sconosciute che incontriamo nel set di test hanno una probabilità che è ovviamente quasi zero, cioè , che senso ha includerli nel modello? Perché non ignorarli ed eliminarli?