Un autoencoder variazionale (VAE) fornisce un modo per apprendere la distribuzione di probabilità correlando un input alla sua rappresentazione latente . In particolare, l'encoder associa un input a una distribuzione su . Un tipico codificatore emetterà parametri , che rappresentano la distribuzione gaussiana ; questa distribuzione viene utilizzata come nostra approssimazione per .
Qualcuno ha considerato un VAE in cui l'output è un modello di miscela gaussiana, piuttosto che un gaussiano? È utile? Ci sono compiti in cui questo è significativamente più efficace di una semplice distribuzione gaussiana? O fornisce pochi benefici?