Interpretazione naturale per iperparametri LDA


21

Qualcuno può spiegare qual è la naturale interpretazione degli iperparametri LDA? ALPHAe BETAsono parametri delle distribuzioni di Dirichlet rispettivamente per (per documento) argomento e (per argomento). Tuttavia qualcuno può spiegare cosa significa scegliere valori più grandi di questi iperparametri rispetto a valori più piccoli? Ciò significa mettere delle credenze precedenti in termini di scarsità di argomenti nei documenti e mutua esclusività degli argomenti in termini di parole?

Questa domanda riguarda l'allocazione latente di Dirichlet, ma il commento di BGReene immediatamente sotto si riferisce all'analisi discriminante lineare, che confusamente è anche abbreviata in LDA.


Penso che tu debba dare qualche dettaglio in più su quale formulazione LDA stai usando. Generalmente sono solo i modelli RDA che hanno quei parametri, LDA di solito è definita interamente dal vettore medio, dalla matrice di covarianza e dalle probabilità precedenti.
BGreene,

Risposte:


11

David Blei ha una bella chiacchierata che introduce LDA agli studenti di una classe estiva: http://videolectures.net/mlss09uk_blei_tm/

Nel primo video tratta ampiamente l'idea di base della modellazione di argomenti e di come entra in gioco la distribuzione di Dirichlet. La notazione della piastra viene spiegata come se tutte le variabili nascoste fossero osservate per mostrare le dipendenze. Fondamentalmente gli argomenti sono distribuzioni su parole e distribuzioni di documenti su argomenti.

Nel secondo video mostra l'effetto dell'alfa con alcuni grafici di esempio. Più piccola è l'alfa più scarsa è la distribuzione. Inoltre, introduce alcuni approcci di inferenza.


7
questa non dovrebbe essere la risposta accettata
samsamara,

Credo che tu abbia ragione. Ho completamente dimenticato di averlo scritto.
Karsten,

Oh! non mi aspettavo di vedere un commento dall'autore! hehe :)
samsamara,

48

La risposta dipende dal fatto che tu stia assumendo la distribuzione dirichlet simmetrica o asimmetrica (o, più tecnicamente, se la misura di base è uniforme). A meno che non sia specificato qualcos'altro, la maggior parte delle implementazioni di LDA presuppone che la distribuzione sia simmetrica.

Per la distribuzione simmetrica, un valore alfa elevato significa che è probabile che ogni documento contenga una combinazione della maggior parte degli argomenti e non di un singolo argomento in particolare. Un valore alfa basso pone meno tali vincoli sui documenti e significa che è più probabile che un documento possa contenere una combinazione di pochi o anche solo uno degli argomenti. Allo stesso modo, un valore beta elevato indica che è probabile che ogni argomento contenga una combinazione della maggior parte delle parole, e non una parola specifica, mentre un valore basso indica che un argomento può contenere una combinazione di poche parole.

Se, d'altra parte, la distribuzione è asimmetrica, un valore alfa elevato significa che una distribuzione specifica dell'argomento (a seconda della misura di base) è più probabile per ciascun documento. Analogamente, valori beta elevati indicano che è più probabile che ciascun argomento contenga un mix di parole specifico definito dalla misura di base.

In pratica, un valore alfa elevato porterà a documenti più simili in termini di argomenti che contengono. Un alto valore beta porterà allo stesso modo ad argomenti più simili in termini di parole che contengono.

Quindi, sì, i parametri alfa specificano le credenze precedenti sulla scarsità / uniformità degli argomenti nei documenti. Non sono del tutto sicuro di cosa intendi per "mutua esclusività degli argomenti in termini di parole".


Più in generale, si tratta di parametri di concentrazione per la distribuzione di dirichlet utilizzati nel modello LDA. Per ottenere una comprensione intuitiva di come funziona, questa presentazione contiene alcune belle illustrazioni, oltre a una buona spiegazione di LDA in generale.


(α1,α2,...,αK)u=(u1,u2,...,uK)ααu=(α1,α2,...,αK)α(α1,α2,...,αK)(α1,α2,...,αK)


2
+1 risposta informativa! Voglio chiedere quanto è alto / basso un valore alto / basso per alfa e beta in generale?
samsamara,

La beta dovrebbe essere una distribuzione delle parole per ogni argomento (una matrice), giusto? Quindi, come si traduce un singolo valore in una matrice?
Noamiko,

Ho ragione nel concludere che l'alfa alta significa che i documenti sono simili e l'alta beta significa che gli argomenti sono simili?
Lewistrick,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.