Ecco come ci penso:
DKL(p(yi|xi)||q(yi|xi,θ))=H(p(yi|xi,θ),q(yi|xi,θ))−H(p(yi|xi,θ))(1)
dove p e qsono due distribuzioni di probabilità. Nell'apprendimento automatico, generalmente lo sappiamop, che è la distribuzione del target. Ad esempio, in un problema di classificazione binaria,Y={0,1}, quindi se yi=1, p(yi=1|x)=1 e p(yi=0|x)=0, e viceversa. Dato ciascunoyi∀i=1,2,…,N, dove N è il numero totale di punti nel set di dati, in genere vogliamo ridurre al minimo la divergenza di KL DKL(p,q) tra la distribuzione del bersaglio p(yi|x) e la nostra distribuzione prevista q(yi|x,θ), mediata su tutto i. (Lo facciamo sintonizzando i parametri del nostro modelloθ. Pertanto, per ciascun esempio di addestramento, il modello sta distribuendo una distribuzione sulle etichette delle classi0 e 1.) Per ogni esempio, poiché il target è fisso, la sua distribuzione non cambia mai. Così,H(p(yi|xi)) è costante per ciascuno i, indipendentemente dai parametri del nostro attuale modello θsiamo. Pertanto, il minimizzatore diDKL(p,q) è uguale al minimizzatore di H(p,q).
Se hai avuto una situazione in cui p e q erano entrambi variabili (diciamo, in cui x1∼p e x2∼q erano due variabili latenti) e volevo abbinare le due distribuzioni, quindi dovresti scegliere tra minimizzare DKL e minimizzare H(p,q). Questo perché minimizzareDKL implica massimizzare H(p) minimizzando H(p,q) implica minimizzare H(p). Per vedere quest'ultimo, possiamo risolvere l'equazione (1) per H(p,q):
H(p,q)=DKL(p,q)+H(p)(2)
Il primo produrrebbe un'ampia distribuzione per pmentre quest'ultimo produrrebbe uno che è concentrato in una o poche modalità. Nota che è una tua scelta come professionista della ML se vuoi minimizzareDKL(p,q) o DKL(q,p). Una piccola discussione di questo è data nel contesto dell'inferenza variazionale (VI) di seguito.
In VI, devi scegliere tra minimizzare DKL(p,q) e DKL(q,p), che non sono uguali poiché la divergenza di KL non è simmetrica. Se trattiamo ancora una voltap come noto, quindi minimizzando DKL(p,q) comporterebbe una distribuzione q che è nitido e focalizzato su una o poche aree mentre minimizza DKL(q,p) comporterebbe una distribuzione q che è ampio e copre una vasta gamma del dominio di q. Ancora una volta, quest'ultimo è perché minimizzareDKL(q,p) implica massimizzare l'entropia di q.