Sto prototipando la mia borsa Naive Bayes o un modello a parole, e avevo una domanda sul calcolo delle probabilità delle funzionalità.
Diciamo che ho due lezioni, userò solo spam e non spam poiché è quello che usano tutti. E prendiamo la parola "viagra" come esempio. Ho 10 e-mail nel mio set di formazione, 5 spam e 5 non spam. "viagra" appare in tutti e 5 i documenti spam. In uno dei documenti di formazione appare 3 volte (questo è quello che riguarda la mia domanda), quindi sono 7 apparizioni nel totale dello spam. Nel set di formazione non spam, appare 1 volta.
Se voglio stimare p (viagra | spam) è semplicemente:
p (viagra | spam) = 5 documenti spam contengono viagra / 5 documenti spam in totale = 1
In altre parole, non importa davvero che un documento menzionato il Viagra 3 volte anziché una volta?
Modifica: ecco un post sul blog in cui l'autore utilizza l'approccio che ho appena esposto: http://ebiquity.umbc.edu/blogger/2010/12/07/naive-bayes-classifier-in-50-lines/
Ed ecco un post sul blog in cui l'autore dice: p (viagra | spam) = 7 citazioni di spam del viagra / 8 menzioni totali http://www.nils-haldenwang.de/computer-science/machine-learning/how-to-apply -naive-Bayes-classificatori-to-documento-classificazione-problemi
E poi una delle risposte sotto dice che dovrebbe essere: p (viagra | spam) = 7 citazioni di viagra nello spam / conteggio dei termini totali nello spam
Qualcuno può collegarsi a una fonte che dà un'opinione su questo?


