Nella letteratura dell'apprendimento automatico, per rappresentare una distribuzione di probabilità, viene spesso utilizzata la funzione softmax. C'è una ragione per questo? Perché non viene utilizzata un'altra funzione?
Nella letteratura dell'apprendimento automatico, per rappresentare una distribuzione di probabilità, viene spesso utilizzata la funzione softmax. C'è una ragione per questo? Perché non viene utilizzata un'altra funzione?
Risposte:
Dal punto di vista dell'ottimizzazione ha delle belle proprietà in termini di differenziabilità. Per molti problemi di apprendimento automatico è adatto per la classificazione 1-of-N.
Dal punto di vista dell'apprendimento profondo: si potrebbe anche sostenere che, in teoria, l'uso di una rete profonda con un classificatore softmax in alto può rappresentare qualsiasi funzione di probabilità di classe N sullo spazio delle caratteristiche poiché le MLP hanno la proprietà di approssimazione universale .
Softmax è anche una generalizzazione della funzione sigmoidea logistica e pertanto porta le proprietà del sigmoide come facilità di differenziazione ed essere nell'intervallo 0-1. Anche l'output di una funzione sigmoidea logistica è compreso tra 0 e 1 e quindi naturalmente una scelta adatta per rappresentare la probabilità. Anche il suo derivato è esaltato in termini di produzione propria. Tuttavia, se la funzione ha un output vettoriale è necessario utilizzare la funzione Softmax per ottenere la distribuzione di probabilità sul vettore output. Ci sono altri vantaggi dell'utilizzo di Softmax di cui l'IA Indie ha parlato, sebbene non abbia necessariamente a che fare con la teoria dell'approssimazione universale poiché Softmax non è una funzione usata solo per le reti neurali.
Riferimenti