Generalmente le reti neurali non sono utilizzate per modellare densità di probabilità complete. Il loro obiettivo è semplicemente modellare la media di una distribuzione (o in una situazione deterministica semplicemente una funzione non lineare). Tuttavia è molto possibile modellare densità di probabilità complete tramite reti neurali.
Un modo semplice per farlo è ad esempio per un caso gaussiano è quello di emettere la media da un output e la varianza da un altro output della rete e quindi ridurre al minimo come parte di il processo di allenamento invece dell'errore quadrato comune. Questa è la procedura di massima verosimiglianza per una rete neurale.−logN(y|x;μ,σ)
Una volta che si allena questa rete ogni volta che si collega un valore come input, si otterranno μ e σ , quindi è possibile collegare l'intera tripletta y , μ , σ alla densità f ( y | x ) ∼ N ( μ , σ ) per ottenere il valore di densità per ogni yxμσy,μ,σf(y|x)∼N(μ,σ)y ti piace. In questa fase puoi scegliere quale valore utilizzare in base a una funzione di perdita del dominio reale. Una cosa da tenere a mente è che per μ l'attivazione dell'uscita dovrebbe essere illimitata in modo da poter emettere -yμ a + inf mentre σ dovrebbe essere solo un'attivazione positiva.−inf+infσ
In generale, a meno che non si tratti di una funzione deterministica che stiamo cercando, l'allenamento standard di perdita quadrata utilizzato nelle reti neurali è praticamente la stessa procedura che ho descritto sopra. Sotto il cofano si assume implicitamente una distribuzione senza preoccuparsi della σ e se si esamina attentamente - l o g N ( y | x ; μ , σ ) fornisce un'espressione per perdita quadrata ( La perdita funzione dello stimatore gaussiano della massima verosimiglianza ). In questo scenario, tuttavia, anziché una yGaussianσ−logN(y|x;μ,σ)y valore a proprio piacimento si è bloccati con l'emissione ogni volta che ti viene dato un nuovovalore x .μx
Per la classificazione l'uscita sarà un distribuzione anziché un G un u s s i a n , che ha un singolo parametro di emettere. Come specificato nell'altra risposta, questo parametro è compreso tra 0 e 1, quindi l'attivazione dell'uscita dovrebbe essere di conseguenza. Può essere una funzione logistica o qualcos'altro che raggiunge lo stesso scopo.BernoulliGaussian01
Un approccio più sofisticato è Bishop's Mixture Density Networks. Puoi leggerlo nel documento di riferimento frequente qui:
https://publications.aston.ac.uk/373/1/NCRG_94_004.pdf