Capisco che, dato un insieme di osservazioni indipendenti lo stimatore della massima verosimiglianza (o, equivalentemente, il MAP con precedente piano / uniforme) che identifica i parametri \ mathbf {θ} che producono la distribuzione del modello p_ {modello} \ sinistra (\, \ cdot \,; \ mathbf {θ} \ destra) che corrisponderà meglio a tali osservazioniO = { O ( 1 ) , . . . , o ( m ) }
o, più convenientemente
e vedere il ruolo che può svolgere nel definire una funzione di perdita per reti neurali profonde multi-classe, in cui corrisponde ai parametri addestrabili della rete (ad esempio, e le osservazioni sono le coppie di attivazioni di input e le corrispondenti etichette di classe corrette , = { }, prendendo
Quello che non capisco è come ciò si riferisce alla cosiddetta "entropia incrociata" dell'output corretto (vettoriale), e alle corrispondenti attivazioni di output della rete, che viene utilizzato nella pratica quando si misura l'errore / perdita durante l'allenamento . Esistono diversi problemi correlati:
Attivazioni "come probabilità"
Uno dei passaggi per stabilire la relazione tra MLE ed entropia incrociata è utilizzare le attivazioni di output "come se" fossero probabilità. Ma non mi è chiaro che lo siano, o almeno che lo siano .
Nel calcolare l'errore di allenamento - in particolare, nel chiamarlo "perdita di entropia incrociata" - si presume che (dopo aver normalizzato le attivazioni per sommare a 1)
o
in modo che possiamo scrivere
e quindi
Ma mentre questo certamente rende una probabilità (nella misura in cui qualcosa è), esso non pone restrizioni alle altre attivazioni.
È possibile davvero essere definito PMF in quel caso? C'è qualcosa che rende in realtà non le probabilità (e semplicemente "mi piace") )? a y ( i ) ( x ( i ) ; θ M L )
Limitazione alla categorizzazione
Il passaggio cruciale sopra indicato nell'equare l'MLE con l'entropia incrociata si basa interamente sulla struttura "one-hot" di che caratterizza un problema di apprendimento multi-classe (a etichetta singola). Qualsiasi altra struttura per renderebbe impossibile passare da a .y ( i ) (1) (3)
L'equazione di MLE e minimizzazione dell'entropia incrociata è limitata ai casi in cui i sono "one-hot"?
Diverse probabilità di formazione e previsione
Durante la previsione, è quasi sempre così
il che si traduce in corrette probabilità di previsione che sono diverse dalle probabilità apprese durante l'allenamento, a meno che non sia affidabile il caso
È mai così affidabile? È probabilmente almeno approssimativamente vero? O c'è qualche altro argomento che giustifica questa equazione del valore dell'attivazione appresa nella posizione dell'etichetta con la probabilità che lì si verifichi il massimo valore delle attivazioni apprese?
Entropia e teoria dell'informazione
Anche supponendo che i problemi di cui sopra sono affrontati e le attivazioni sono PMF validi (o possono significato essere trattati come tali), in modo che il ruolo giocato da entropia croce nel calcolo è priva di problemi, non è chiaro a perché è utile o significativo parlare dell'entropia di , poiché l'entropia di Shanon si applica a una specifica tipo di codifica , che non è quella utilizzata per addestrare la rete. a( x ( i ) ; θ M L )
Quale ruolo svolge l'entropia teorica dell'informazione nell'interpretazione della funzione di costo, anziché fornire semplicemente uno strumento (sotto forma di entropia incrociata) per elaborarne uno (che corrisponde all'MLE)?
softmax_cross_entropy_with_logits
: calcolano e quindi che definisce una rete "progettata per" produrre probabilità (almeno nella posizione dell'etichetta). No? θ M L ( O )