È possibile campionare dalla distribuzione categoriale date le probabilità di log senza lasciare spazio nel log usando il trucco Gumbel-max . L'idea è che se ti vengono fornite probabilità di log non normalizzate , che possono essere tradotte in probabilità appropriate usando la funzione softmaxα1, ... , αK
pio= exp( αio)Σjexp( αj)
quindi per campionare da tale distribuzione puoi usare il fatto che se sono campioni indipendenti presi dalla distribuzione standard di Gumbel parametrizzata dalla posizione ,mg1, ... , gK∼ G( 0 )m
F( G ≤ g) = exp( - exp( - g+ m ) )
allora può essere mostrato (vedi riferimenti sotto) quello
a r gm a xio{gio+ αio}maxio{gio+ αio}∼ exp( αio)Σjexp( αj)∼ G(logΣioexp{ αio})
e possiamo prendere
z= a r gm a xio{gio+ αio}
come esempio dalla distribuzione categoriale parametrizzata da probabilità . Questo approccio è stato descritto in maggior dettaglio nei post di blog di Ryan Adams e Laurent Dinh , inoltre Chris J. Maddison, Daniel Tarlow e Tom Minka hanno tenuto un discorso ( diapositive ) sulla conferenza Neural Information Processing Systems (2014) e hanno scritto un documento intitolato A * Campionamento che ha generalizzato quelle idee (vedi anche Maddison, 2016; Maddison, Mnih e Teh, 2016; Jang e Poole, 2016), che si riferiscono a Yellott (1977) citando il suo come quello tra quelli che per primi hanno descritto questa proprietà.p1, ... , pK
È abbastanza facile implementarlo usando il campionamento di trasformazione inversa prendendo dove sono disegnati da una distribuzione uniforme su . Non è certamente l'algoritmo più efficiente in termini di tempo per il campionamento dalla distribuzione categoriale, ma ti consente di rimanere nello spazio di registro che potrebbe essere un vantaggio in alcuni scenari.gio= - log( - loguio)uio( 0 , 1 )
Maddison, CJ, Tarlow, D., e Minka, T. (2014). A * campionamento. [In:] Progressi nei sistemi di elaborazione delle informazioni neurali (pagg. 3086-3094).
Yellott, JI (1977). La relazione tra l'assioma scelto di Luce, la teoria del giudizio comparativo di Thurstone e la doppia distribuzione esponenziale. Journal of Mathematical Psychology, 15 (2), 109-144.
Maddison, CJ, Mnih, A., & Teh, YW (2016). La distribuzione concreta: un continuo rilassamento di variabili casuali discrete. arXiv prestampa arXiv: 1611.00712.
Jang, E., Gu, S., & Poole, B. (2016). Rarameterizzazione categorica con Gumbel-Softmax. arXiv prestampa arXiv: 1611.01144.
Maddison, CJ (2016). Un modello di processo di Poisson per Monte Carlo. arXiv prestampa arXiv: 1602.05986.
exp
può perdere precisione, portando a distribuzioni come [1.0, 3.45e-66, 0.0, 7.54e-121] . Vorrei aspettare qualche risposta che sia solida anche in quel caso. Ma per ora sto votando la tua risposta.