Quanto è profonda la connessione tra la funzione softmax in ML e la distribuzione di Boltzmann in termodinamica?


12

La funzione softmax, comunemente usata nelle reti neurali per convertire i numeri reali in probabilità, ha la stessa funzione della distribuzione di Boltzmann, la distribuzione di probabilità sulle energie per un insieme di particelle in equilibrio termico ad una data temperatura T in termodinamica.

Vedo alcune chiare ragioni euristiche per cui questo è pratico:

  • Non importa se i valori di input sono negativi, softmax genera valori positivi che si sommano a uno.
  • È sempre differenziabile, il che è utile per la backpropagation.
  • Ha un parametro 'temperatura' che controlla quanto la rete dovrebbe essere flessibile verso valori piccoli (quando T è molto grande, tutti i risultati sono ugualmente probabili, quando molto piccoli, viene selezionato solo il valore con l'ingresso più grande).

La funzione Boltzmann è utilizzata come softmax solo per motivi pratici o esiste una connessione più profonda con la termodinamica / fisica statistica?


1
Non vedo perché questo stia attirando voti stretti - è una domanda perfettamente ragionevole.
Matt Krause,

2
Da +1 a @ MattKrause: le NN sono sicuramente in tema, come lo è - penso - la fisica statistica.
Sean Easter,

Posso vedere come la domanda sia più "aperta" della maggior parte delle domande SO, nel senso che non sto cercando una soluzione a un problema, ma una conoscenza più generale. Tuttavia, non riuscivo a pensare a un posto migliore per chiederlo o un modo più specifico per chiederlo.
ahura,

Risposte:


3

Per quanto ne sappia, non esiste una ragione più profonda, a parte il fatto che molte persone che hanno preso la RNA oltre lo stadio di Perceptron erano fisici.

Oltre ai vantaggi citati, questa particolare scelta presenta più vantaggi. Come accennato, ha un singolo parametro che determina il comportamento dell'output. Che a sua volta può essere ottimizzato o ottimizzato in sé.

In breve, è una funzione molto utile e ben nota che raggiunge una sorta di "regolarizzazione", nel senso che anche i valori di input più grandi sono limitati.

Naturalmente ci sono molte altre possibili funzioni che soddisfano gli stessi requisiti, ma sono meno conosciute nel mondo della fisica. E il più delle volte, sono più difficili da usare.


2

la funzione softmax viene utilizzata anche nella modellazione a scelta discreta, è uguale al modello logit, se si assume che vi sia una funzione di utilità associata a ciascuna classe e la funzione di utilità sia uguale all'output della rete neurale + un termine di errore che segue Gumbel distribuzione, la probabilità di appartenere a una classe equivale alla funzione softmax con rete neurale come input. Vedi: https://eml.berkeley.edu/reprints/mcfadden/zarembka.pdf

esistono alternative al modello logit, come il modello probit, in cui si presume che il termine di errore segua la distribuzione normale standard, il che è un presupposto migliore. tuttavia, la probabilità sarebbe intrattabile ed è costosa da risolvere in termini di calcolo, quindi non comunemente usata nella rete neurale

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.