I classificatori Naive Bayes sono una scelta popolare per i problemi di classificazione. Ci sono molte ragioni per questo, tra cui:
- "Zeitgeist" - consapevolezza diffusa dopo il successo dei filtri antispam di circa dieci anni fa
- Facile da scrivere
- Il modello di classificatore è veloce da costruire
- Il modello può essere modificato con nuovi dati di addestramento senza dover ricostruire il modello
Tuttavia, sono "ingenui" - cioè presumono che le caratteristiche siano indipendenti - questo contrasta con altri classificatori come i classificatori di Entropia massima (che sono lenti da calcolare).
L'ipotesi di indipendenza di solito non può essere assunta e nella maggior parte dei casi (la maggior parte?), Incluso l'esempio del filtro antispam, è semplicemente sbagliata.
Quindi perché il Classificatore Naive Bayes funziona ancora molto bene in tali applicazioni, anche quando le funzionalità non sono indipendenti l'una dall'altra?