Perché l'entropia incrociata è diventata la funzione di perdita standard di classificazione e non la divergenza di Kullbeck Leibler?


15

L'entropia crociata è identica alla divergenza KL più entropia della distribuzione target. KL è uguale a zero quando le due distribuzioni sono uguali, il che mi sembra più intuitivo dell'entropia della distribuzione target, che è l'entropia incrociata in una partita.

Non sto dicendo che ci sono più informazioni in una delle altre tranne che una visione umana potrebbe trovare uno zero più intuitivo di un positivo. Naturalmente, di solito si usa un metodo di valutazione per vedere davvero come si verifica la classificazione. Ma la scelta dell'entropia incrociata rispetto a KL è storica?

Risposte:


12

Quando si tratta di problemi di classificazione nell'apprendimento automatico, l'entropia incrociata e la divergenza di KL sono uguali . Come già affermato nella domanda, la formula generale è questa:

H(p,q)=H(p)+DKL(p||q)

Dove p una distribuzione "vera" e q è una distribuzione stimata, H(p,q) è l'entropia incrociata, H(p) è l'entropia e D è la divergenza di Kullback-Leibler.

Si noti che nell'apprendimento automatico, p è una rappresentazione unica della classe di verità di base, ovvero

p=[0,...,1,...,0]

che è fondamentalmente un distribuzione delta-function . Ma l'entropia della funzione delta è zero, quindi la divergenza di KL equivale semplicemente all'entropia incrociata.

H(p)0


0

L'entropia incrociata è un'entropia, non una differenza di entropia.

Un modo più naturale e forse intuitivo per concettualizzare i criteri di categorizzazione è attraverso una relazione piuttosto che una definizione.

H(P,Q)-H(P)=DKL(PQ)=-ΣioP(io)logQ(io)P(io)

Ciò segue paralleli, identificati da Claude Shannon con John von Neumann, tra la termodinamica meccanica quantistica e la teoria dell'informazione. L'entropia non è una quantità assoluta. È relativo, quindi né l'entropia né l'entropia incrociata possono essere calcolate, ma la loro differenza può essere per il caso discreto sopra o per il fratello continuo sotto.

H(P,Q)-H(P)=DKL(PQ)=--p(X)logq(X)p(X)dX

Anche se possiamo vedere H(...)=...in letteratura, senza H '(...) sul lato destro dell'equazione, non è tecnicamente accurato. In tali casi c'è sempre un'entropia implicita a cui l'entropia sul lato sinistro è relativa.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.