Perché il softmax è usato per rappresentare una distribuzione di probabilità?

10

Nella letteratura dell'apprendimento automatico, per rappresentare una distribuzione di probabilità, viene spesso utilizzata la funzione softmax. C'è una ragione per questo? Perché non viene utilizzata un'altra funzione?

machine-learning distributions softmax

— SHASHANK GUPTA
fonte

7

Dal punto di vista dell'ottimizzazione ha delle belle proprietà in termini di differenziabilità. Per molti problemi di apprendimento automatico è adatto per la classificazione 1-of-N.

Dal punto di vista dell'apprendimento profondo: si potrebbe anche sostenere che, in teoria, l'uso di una rete profonda con un classificatore softmax in alto può rappresentare qualsiasi funzione di probabilità di classe N sullo spazio delle caratteristiche poiché le MLP hanno la proprietà di approssimazione universale .

— Indie AI
fonte

1

Quindi il motivo principale per la popolarità di Softmax è che sono belle proprietà di differenziazione che sono utili nell'impostazione dell'apprendimento basato sul gradiente. Esatto, vero?

— SHASHANK GUPTA,

Sì, secondo me comunque. Softmax è un semplice con buoni derivati ed è attraente per l'apprendimento basato sul gradiente. Concordo con tutto quello che hai detto.

— Indie AI

Puoi considerare il softmax come una funzione di massa / densità di probabilità della funzione che intendi ottimizzare. Secondo me, softmax è solo un modo conveniente per modellare una funzione di massa / densità di probabilità.

— Charles Chow,

3

Softmax è anche una generalizzazione della funzione sigmoidea logistica e pertanto porta le proprietà del sigmoide come facilità di differenziazione ed essere nell'intervallo 0-1. Anche l'output di una funzione sigmoidea logistica è compreso tra 0 e 1 e quindi naturalmente una scelta adatta per rappresentare la probabilità. Anche il suo derivato è esaltato in termini di produzione propria. Tuttavia, se la funzione ha un output vettoriale è necessario utilizzare la funzione Softmax per ottenere la distribuzione di probabilità sul vettore output. Ci sono altri vantaggi dell'utilizzo di Softmax di cui l'IA Indie ha parlato, sebbene non abbia necessariamente a che fare con la teoria dell'approssimazione universale poiché Softmax non è una funzione usata solo per le reti neurali.

Riferimenti

Funzione logistica

Funzione Softmax

Facilità di differenziazione su Softmax

Facilità di differenziazione di Sigmoid

— amir
fonte