Dopo molte ricerche su Cross Validated, non mi sento ancora più vicino alla comprensione della divergenza di KL al di fuori del regno della teoria dell'informazione. È piuttosto strano come qualcuno con un background matematico per trovare molto più facile capire la spiegazione della teoria dell'informazione.
Per delineare la mia comprensione da un background di teoria dell'informazione: se abbiamo una variabile casuale con un numero finito di risultati, esiste una codifica ottimale che ci consente di comunicare il risultato con qualcun altro con in media il messaggio più breve (lo trovo più facile da immagine in termini di bit). La lunghezza prevista del messaggio che sarebbe necessario comunicare il risultato è data da
Mi piace questa spiegazione, perché si occupa in modo abbastanza intuitivo dell'asimmetria della divergenza di KL. Se abbiamo due sistemi diversi, cioè due monete caricate che sono caricate in modo diverso, avranno codifiche ottimali diverse. In qualche modo non ho istintivamente la sensazione che l'uso della codifica del secondo sistema per il primo sia "ugualmente negativo" rispetto all'utilizzo della codifica del primo sistema per il secondo. Senza passare attraverso il processo di pensiero di come mi sono convinto, ora sono abbastanza felice che
Tuttavia, la maggior parte delle definizioni della divergenza di KL, tra cui Wikipedia, fanno quindi l'affermazione (mantenendola in termini discreti in modo che possa essere confrontata con l'interpretazione della teoria dell'informazione che funziona molto meglio in termini discreti poiché i bit sono discreti) che se abbiamo due probabilità discrete distribuzioni, poi KL fornisce alcune metriche di "quanto sono diverse". Devo ancora vedere una singola spiegazione di come questi due concetti siano addirittura correlati. Mi sembra di ricordare nel suo libro sull'inferenza, Dave Mackay fa notare come la compressione e l'inferenza dei dati siano sostanzialmente la stessa cosa, e sospetto che la mia domanda sia realmente correlata a questo.
Indipendentemente dal fatto che sia o meno, il tipo di domanda che ho in mente riguarda i problemi di inferenza. (Mantenendo le cose discrete), se abbiamo due campioni radioattivi, e sappiamo che uno di questi è un certo materiale con radioattività nota (questa è una fisica dubbia ma facciamo finta che l'universo funzioni così) e quindi conosciamo la "vera" distribuzione dei clic radioattivi che dovremmo misurare dovrebbe essere poissoniano con noto , è giusto costruire una distribuzione empirica per entrambi i campioni e confrontare le loro divergenze di KL con la distribuzione nota e dire che il più basso è più probabile che sia quel materiale?
Allontanandosi dalla fisica dubbia, se so che due campioni sono estratti dalla stessa distribuzione ma so che non sono selezionati casualmente, il confronto delle loro divergenze KL con la distribuzione globale nota mi darebbe un'idea di "quanto distorti" siano i campioni , rispetto all'una e all'altra comunque?
E infine, se la risposta alle domande precedenti è sì, allora perché? È possibile capire queste cose da un punto di vista statistico da solo senza fare collegamenti (forse tenui) alla teoria dell'informazione?