Questo non è davvero il mio campo, quindi alcune riflessioni:
Inizierò con il concetto di sorpresa . Cosa significa essere sorpresi? Di solito, significa che è successo qualcosa che non era previsto. Quindi, sorprendilo come un concetto probabilistico e può essere spiegato come tale (IJ Good ne ha scritto). Vedi anche Wikipedia e Bayesian Surprise .
Prendi il caso particolare di una situazione sì / no, qualcosa può succedere o no. Succede con probabilità p . Dì, se p = 0.9 e succede, non sei davvero sorpreso. Se p=0.05 e succede, sei un po 'sorpreso. E se p=0.0000001 e succede, sei davvero sorpreso. Quindi, una misura naturale del "valore a sorpresa nel risultato osservato" è una funzione (anti) monotona della probabilità di ciò che è accaduto. Sembra naturale (e funziona bene ...) prendere il logaritmo di probabilità di ciò che è accaduto, e quindi lanciamo un segno meno per ottenere un numero positivo. Inoltre, prendendo il logaritmo ci concentriamo sull'ordine della sorpresa e, in pratica, le probabilità sono spesso conosciute solo su ordinazione, più o meno .
Quindi, definiamo
Surprise(A)=−logp(A)
dove A è il risultato osservato e p(A) è la sua probabilità.
Ora possiamo chiedere qual è la sorpresa attesa . Sia X una variabile casuale di Bernoulli con probabilità p . Ha due possibili esiti, 0 e 1. I rispettivi valori di sorpresa sono
Surprise(0)Surprise(1)=−log(1−p)=−logp
quindi la sorpresa osservandoXè essa stessa una variabile casuale con aspettativa
p⋅−logp+(1−p)⋅−log(1−p)
e cioè --- sorpresa! --- l'entropia diX! Quindi l'entropia èprevista sorpresa!
Ora, questa domanda riguarda la massima entropia . Perché qualcuno dovrebbe voler usare una distribuzione di entropia massima? Bene, deve essere perché vogliono essere sorpresi al massimo! Perché qualcuno lo vorrebbe?
Un modo per osservarlo è il seguente: vuoi imparare qualcosa e, a quell'obiettivo, hai impostato alcune esperienze di apprendimento (o esperimenti ...). Se sapevi già tutto su questo argomento, sei in grado di prevedere sempre perfettamente, quindi non essere mai sorpreso. Quindi non avrai mai nuove esperienze, quindi non imparare nulla di nuovo (ma sai già tutto --- non c'è nulla da imparare, quindi va bene). Nella situazione più tipica che sei confuso, incapace di prevedere perfettamente, c'è un'opportunità di apprendimento! Questo porta all'idea che possiamo misurare la "quantità di apprendimento possibile" dalla sorpresa attesa , cioè dall'entropia. Quindi, massimizzare l'entropia non è altro che massimizzare le opportunità di apprendimento. Sembra un concetto utile, che potrebbe essere utile nella progettazione di esperimenti e cose del genere.
Un esempio poetico è il noto
Wenn einer eine reise macht, dann kann er was erzählen ...
Un esempio pratico: vuoi progettare un sistema per test online (nel senso che non tutti ricevono le stesse domande, le domande vengono scelte in modo dinamico in base alle risposte precedenti, quindi ottimizzate, in qualche modo, per ogni persona).
Se fai domande troppo difficili, quindi non vengono mai padroneggiate, non impari nulla. Ciò indica che è necessario ridurre il livello di difficoltà. Qual è il livello di difficoltà ottimale, ovvero il livello di difficoltà che massimizza il tasso di apprendimento? Lascia che la probabilità di una risposta corretta sia p . Vogliamo il valore di p che massimizzi l'entropia di Bernoulli. Ma questo è p=0.5 . Quindi miri a porre domande in cui la probabilità di ottenere una risposta corretta (da quella persona) è 0,5.
Allora il caso di una vc continua X . Come possiamo essere sorpresi osservando X ? La probabilità di un risultato particolare {X=x} è zero, la definizione −logp è inutile. Ma saremo sorpresi se la probabilità di osservare qualcosa come x è piccola, cioè se il valore della funzione di densità f(x) è piccolo (supponendo che f sia continuo). Questo porta alla definizione
Surprise(x)=−logf(x)
Con tale definizione, la sorpresa attesa dall'osservazione di X è
E{−logf(X)}=−∫f(x)logf(x)dx
che è, la sorpresa ci si aspetta da osservareX è l'entropia differenziale dellaX . Può anche essere visto come loglikelihood atteso.
Ma questo non è proprio lo stesso del primo, evento, caso. Anche questo, un esempio. Lascia che la variabile casuale X rappresenti la lunghezza di un tiro di una pietra (diciamo in una competizione sportiva). Per misurare quella lunghezza dobbiamo scegliere un'unità di lunghezza, poiché non esiste una scala intrinseca per la lunghezza, così come lo è per la probabilità. Potremmo misurare in mm o in km, o più solitamente, in metri. Ma la nostra definizione di sorpresa, quindi sorpresa attesa, dipende dall'unità scelta, quindi non c'è invarianza. Per questa ragione, i valori dell'entropia differenziale non sono direttamente comparabili come l'entropia di Shannon. Potrebbe essere ancora utile se si ricorda questo problema.