Quindi nella modellazione di testo (senza supervisione), Latent Dirichlet Allocation (LDA) è una versione bayesiana di Probabilistic Latent Semantic Analysis (PLSA). In sostanza, LDA = PLSA + Dirichlet ha preceduto i suoi parametri. La mia comprensione è che LDA è ora l'algoritmo di riferimento ed è implementato in vari pacchetti, mentre il PLSA non dovrebbe più essere utilizzato.
Ma nella categorizzazione del testo (supervisionato), potremmo fare esattamente la stessa cosa per il classificatore multinomiale Naive Bayes e mettere un Dirichlet prima dei parametri. Ma non credo di aver mai visto nessuno farlo, e la versione "stimata in punti" del multinomiale Naive Bayes sembra essere la versione implementata nella maggior parte dei pacchetti. C'è qualche motivo per quello?