La risposta dipende dal fatto che tu stia assumendo la distribuzione dirichlet simmetrica o asimmetrica (o, più tecnicamente, se la misura di base è uniforme). A meno che non sia specificato qualcos'altro, la maggior parte delle implementazioni di LDA presuppone che la distribuzione sia simmetrica.
Per la distribuzione simmetrica, un valore alfa elevato significa che è probabile che ogni documento contenga una combinazione della maggior parte degli argomenti e non di un singolo argomento in particolare. Un valore alfa basso pone meno tali vincoli sui documenti e significa che è più probabile che un documento possa contenere una combinazione di pochi o anche solo uno degli argomenti. Allo stesso modo, un valore beta elevato indica che è probabile che ogni argomento contenga una combinazione della maggior parte delle parole, e non una parola specifica, mentre un valore basso indica che un argomento può contenere una combinazione di poche parole.
Se, d'altra parte, la distribuzione è asimmetrica, un valore alfa elevato significa che una distribuzione specifica dell'argomento (a seconda della misura di base) è più probabile per ciascun documento. Analogamente, valori beta elevati indicano che è più probabile che ciascun argomento contenga un mix di parole specifico definito dalla misura di base.
In pratica, un valore alfa elevato porterà a documenti più simili in termini di argomenti che contengono. Un alto valore beta porterà allo stesso modo ad argomenti più simili in termini di parole che contengono.
Quindi, sì, i parametri alfa specificano le credenze precedenti sulla scarsità / uniformità degli argomenti nei documenti. Non sono del tutto sicuro di cosa intendi per "mutua esclusività degli argomenti in termini di parole".
Più in generale, si tratta di parametri di concentrazione per la distribuzione di dirichlet utilizzati nel modello LDA. Per ottenere una comprensione intuitiva di come funziona, questa presentazione contiene alcune belle illustrazioni, oltre a una buona spiegazione di LDA in generale.
(α1,α2,...,αK)u=(u1,u2,...,uK)αα∗u=(α1,α2,...,αK)α(α1,α2,...,αK)(α1,α2,...,αK)