Volevo sottolineare, poiché questo è uno dei principali successi di Google per questo argomento, che Latent Dirichlet Allocation (LDA), Hierarchical Dirichlet Processes (HDP) e Gerarchical Latent Dirichlet Allocation (hLDA) sono tutti modelli distinti.
LDA modella i documenti come miscele di dirichlet di un numero fisso di argomenti - scelti come parametro del modello dall'utente - che sono a loro volta miscele di dirichlet di parole. Ciò genera un raggruppamento probabilistico piatto e morbido di termini in argomenti e documenti in argomenti.
L'HDP modella gli argomenti come miscele di parole, proprio come LDA, ma piuttosto che i documenti sono miscele di un numero fisso di argomenti, il numero di argomenti viene generato da un processo dirichlet, risultando nel numero di argomenti anche una variabile casuale. La parte "gerarchica" del nome si riferisce ad un altro livello che viene aggiunto al modello generativo (il processo dirichlet che produce il numero di argomenti), non gli argomenti stessi: gli argomenti sono ancora raggruppamenti piatti.
hLDA, d'altra parte, è un adattamento di LDA che modella gli argomenti come miscele di un nuovo, distinto livello di argomenti, tratti da distribuzioni dirichlete non processi. Tratta ancora il numero di argomenti come un iperparametro, cioè indipendente dai dati. La differenza è che il raggruppamento è ora gerarchico: impara un raggruppamento della prima serie di argomenti stessi, offrendo relazioni più generali e astratte tra argomenti (e quindi parole e documenti). Pensalo come raggruppare gli scambi di stack in matematica, scienze, programmazione, storia, ecc. Piuttosto che raggruppare scienza dei dati e convalida incrociata in una statistica astratta e argomento di programmazione che condivide alcuni concetti con, diciamo, ingegneria del software, ma l'ingegneria del software, ma l'ingegneria del software lo scambio è raggruppato a un livello più concreto con lo scambio di informatica e la somiglianza tra tutti gli scambi citati non appare tanto fino allo strato superiore dei cluster.