Perché nessuno usa il classificatore bayesiano multinomiale Naive Bayes?


15

Quindi nella modellazione di testo (senza supervisione), Latent Dirichlet Allocation (LDA) è una versione bayesiana di Probabilistic Latent Semantic Analysis (PLSA). In sostanza, LDA = PLSA + Dirichlet ha preceduto i suoi parametri. La mia comprensione è che LDA è ora l'algoritmo di riferimento ed è implementato in vari pacchetti, mentre il PLSA non dovrebbe più essere utilizzato.

Ma nella categorizzazione del testo (supervisionato), potremmo fare esattamente la stessa cosa per il classificatore multinomiale Naive Bayes e mettere un Dirichlet prima dei parametri. Ma non credo di aver mai visto nessuno farlo, e la versione "stimata in punti" del multinomiale Naive Bayes sembra essere la versione implementata nella maggior parte dei pacchetti. C'è qualche motivo per quello?

Risposte:


7

Qui un bel documento che affronta alcune delle carenze "sistemiche" del classificatore Multinomial Naive Bayes (MNB). L'idea è che puoi migliorare le prestazioni di MNB attraverso alcune modifiche. E menzionano l'uso di Priichlet (uniformi).

Nel complesso, se sei interessato a MNB e non hai ancora letto questo documento, ti consiglio vivamente di farlo.

Ho anche trovato una tesi di laurea di accompagnamento della stessa persona / persone ma non l'ho ancora letto da solo. Puoi verificarlo.


Il secondo link è morto - probabilmente dspace.mit.edu/handle/1721.1/7074 è la versione aggiornata
beldaz

5

Sospetto che la maggior parte delle implementazioni NB consentano di stimare le probabilità condizionali con la correzione di Laplace , che fornisce una soluzione MAP al classificatore NB bayesiano (con un particolare Dirichlet precedente). Come sottolineato da @Zhubarb (+1), i trattamenti bayesiani dei classificatori NB sono già stati derivati ​​e implementati (vale la pena leggere la tesi / gli articoli di Rennie). Tuttavia, il presupposto di indipendenza di NB è quasi sempre sbagliato, nel qual caso rendere il modello più fortemente dipendente da tale presupposto (attraverso un trattamento completo bayesiano) potrebbe non essere una buona cosa da fare.


0

Non credo che ciò che descrivi sia vero. I modelli probabilistici per LDA e MNB sono diversi.

Una delle principali differenze tra i due è che nel modello generativo per LDA, quando viene disegnata una parola, prima viene scelto un argomento per quella parola, quindi viene scelta una parola da quella distribuzione dell'argomento. Iow ogni parola in un documento può essere tratto da un argomento diverso.

Nel modello generativo per MNB, al documento viene assegnata una classe e tutte le parole in quel documento sono tratte dalla (stessa) distribuzione per quella classe.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.