Nel trattare una funzione di utilità relativa e normalizzata come pmf, qual è l'interpretazione dell'entropia di Shannon o delle informazioni di Shannon?


10

Supponiamo che sia un insieme di risultati reciprocamente esclusivi di una variabile casuale discreta e sia una funzione di utilità in cui , , ecc.Ωf0<f(ω)1Ωf(ω)=1

Quando è uniformemente distribuito su e è una funzione di massa di probabilità , l'entropia di Shannon è massimizzato ( e quando un elemento in ha tutta la massa di , l'entropia di Shannon viene minimizzata ( , in effetti). Ciò corrisponde alle intuizioni su sorpresa (o riduzione dell'incertezza ) e risultati e incertezza (o sorpresa attesa ) e variabili casuali:fΩH ( Ω ) = Ω f ( ω ) l o g 1fH(Ω)=Ωf(ω)log1f(ω)=log|Ω|)Ωf0

  • Quando è distribuito uniformemente, l'incertezza è massimizzata e più risultati ci sono per la distribuzione uniforme della massa, più siamo incerti.f
  • Quando ha tutta la sua massa concentrata in un unico risultato, non abbiamo incertezza.f
  • Quando assegniamo un risultato una probabilità di , non otteniamo informazioni (non siamo "sorpresi") quando lo osserviamo effettivamente.1
  • Quando assegniamo a un risultato una probabilità sempre più vicina a , l'osservazione che si verifica effettivamente diventa sempre più informativa ("sorprendente").0

(Tutto ciò non dice nulla dell'interpretazione molto più concreta, ma meno epistemica, della codifica delle informazioni / entropia di Shannon, ovviamente.)

Tuttavia, quando ha l'interpretazione di una funzione di utilità , esiste un'interpretazione sensata di o ? Mi sembra che potrebbero esserci:flog1f(ω)f(ω)log1f(ω)

  • se come PMF rappresenta una distribuzione uniforme su , allora come funzione di utilità corrisponde all'indifferenza sugli esiti che non potrebbero essere maggiori *fΩf
  • una funzione di utilità in cui un risultato ha tutta l'utilità e il resto non ne ha (per quanto distorta un'utilità come potrebbe esserci) corrisponde a preferenze relative molto forti - una mancanza di indifferenza.

C'è un riferimento in espansione su questo? Ho perso qualcosa riguardo ai limiti nel confrontare le funzioni di massa di probabilità e le utilità normalizzate relative rispetto a variabili casuali discrete?

* Sono consapevole delle curve di indifferenza e non vedo come potrebbero essere rilevanti per la mia domanda per una serie di ragioni, a partire dalla mia attenzione su uno spazio di campionamento categorico e dal fatto che non sono interessato a "indifferenza" di per sé, ma piuttosto come interpretare le utilità come probabilità e come interpretare i funzionali sulle probabilità quando la "distribuzione di probabilità" (discreta) in questione in realtà o (in aggiunta) ha l'interpretazione di una funzione di utilità.


Non ho una risposta, ma la tua domanda mi fa pensare all'utilizzo dell'entropia nel problema del giusto taglio della torta: en.wikipedia.org/wiki/Fair_cake-cutting Il modello standard è che la torta è un intervallo [0, 1] e ci sono agenti con differenti misure di valore normalizzate sull'intervallo. Si presume che le misure non siano atomiche, ma non si ipotizza più la loro "entropia". Può essere interessante pensare a ciò che possiamo dire sui problemi di taglio della torta in cui le funzioni di utilità hanno limitato l'entropia. n
Erel Segal-Halevi,

Risposte:


3

Prima della discussione sull'entropia di Shannon, c'è un altro punto da discutere: sembra che tu abbia in mente l' utilità cardinale piuttosto che ordinale .

Naturalmente in entrambi i casi si possono derivare funzioni di utilità "normalizzate". Ma il concetto di "preferenza relativa" può essere definito e misurato solo nel contesto dell'utilità cardinale.

E il problema non si pone ai due estremi che descrivi, ma in tutti i possibili casi intermedi.

Un semplice esempio: supponiamo che ci siano tre "risultati", (diciamo, livelli di consumo o tre beni diversi ciascuno in una certa quantità). La tua funzione di utilità ha assegnato loro i valoriA,B,C

V(A)=1,V(B)=9,V(C)=90

Sotto l'utilità ordinale, questo ci dice proprio questo

A<prB<prC

Certamente possiamo normalizzarli dividendo per per ottenere100

e la classifica dei tre risultati viene preservata

UV(A)=0.01,UV(B)=0.09,UV(C)=0.9

Ma sotto l'utilità ordinale, potremmo benissimo usare un'altra funzione di utilità che assegnerebbe

W(A)=31,W(B)=32,W(C)=37

e ottenere

UW(A)=0.31,UW(B)=0.32,UW(C)=0.37

La classifica è la stessa, quindi le due funzioni di utilità e sono equivalenti sotto l'utilità ordinale.VW

Ma in quello che stai descrivendo, la funzione di utilità rappresenta preferenze relative diverse rispetto a e quindi non è la stessa funzione di utilità. Ma questo è significativo solo sotto l' utilità cardinale , dove si presume che i confronti quantitativi tra i numeri di utilità abbiano un significato. WV

Conosci i problemi che circondano l'utilità cardinale?


VU

3

Dopo lo scambio con l'OP nell'altra mia risposta, lavoriamo un po 'con il suo approccio.

XX={x1,...,xk}Pr(X=xi)=pi,i=1,...,k

I valori nel supporto di sono anche input in una funzione di utilità cardinale a valore reale , . Consideriamo quindi la funzione di utilità normalizzataXu(xi)>0i

(1)w(X):w(xi)=u(xi)i=1ku(xi),i=1,...,k

e ci viene detto questo

(2)w(xi)=pi

Si noti che non facciamo solo l'osservazione che una funzione discreta non negativa normalizzata del dominio finito, soddisfa le proprietà di una funzione di massa di probabilità in generale - ipotizziamo specificamente che abbia la forma funzionale del PMF del casuale variabile i cui valori come input.w(xi)w(xi)

Poiché è una funzione misurabile di una variabile casuale, anche questa è una variabile casuale. Quindi possiamo considerare significativamente cose come il suo valore atteso. Usiamo la Legge dello Statistico Inconscio che abbiamow(xi)

(3)E[w(X)]=i=1kpiw(xi)=i=1kpi2

Questa è una funzione convessa e se proviamo a estenderla sui sotto il vincolo otteniamo facilmentepii=1kpi=1

(4)argminE[w(X)]=p:p1=p2=...=pk=1/k

e abbiamo ottenuto un risultato generale:

La funzione di utilità normalizzata come sopra definita ha un valore minimo previsto se la distribuzione di è uniforme.X

Ovviamente in tal caso sarà una funzione costante , una variabile casuale degenerata con e varianza zero.w(X) E[w(X)]=1/k

Passiamo all'entropia di Shannon che è al centro dell'OP. Per essere calcolato, l'entropia di Shannon ha bisogno della funzione di massa di probabilità della variabile casuale ... quindi dovremmo trovare il PMF della variabile casuale ... w(X)

Ma ho l'impressione che questo non sia ciò che l'OP ha in mente. Piuttosto, vede l'entropia di Shannon come una metrica che ha alcune proprietà algebriche desiderabili e forse può misurare in modo compatto in modo significativo qualcosa di interessante.

Ciò è stato fatto in precedenza in Economia, in particolare in Organizzazione industriale, dove sono stati costruiti gli Indici di concentrazione del mercato ("grado di concorrenza / struttura monopolistica di un mercato"). Ne noto due che sembrano particolarmente rilevanti qui.

A) L' Indice Herfindahl ha come argomenti le quote di mercato delle società che operano in un mercato, , quindi si sommano all'unità per costruzione. La sua versione senza scala ènsi

H=i=1nsi2

che è un'espressione che ha la stessa struttura esatta con il valore atteso di derivato sopra.w(X)

B) L' indice entropico che ha la forma matematica esatta con l'entropia di Shannon.

Re=i=1nsilnsi

Encaoua, D., & Jacquemin, A. (1980). Grado di monopolio, indici di concentrazione e minaccia di ingresso. Revisione economica internazionale, 87-105. , forniscono una derivazione assiomatica di indici di concentrazione "ammissibili", ovvero definiscono le proprietà che tale indice deve possedere. Poiché il loro approccio è astratto, credo che possa essere utile a ciò che l'OP desidera esplorare e attribuire significato.


1

Sembra che la funzione di utilità non sia solo cardinale qui, ma anche definita su una scala di rapporto. Considera due risultati con le utility 1/4 e 3/4. Chiaramente, possiamo applicare la trasformazione affine: nel qual caso le utility diventano 0 e 1. Tuttavia, ora abbiamo cambiato l'entropia da un valore strettamente positivo a zero!v=v20.5

Pertanto, è necessario innanzitutto fornire una scala di rapporto significativa alla propria utilità. Un modo per farlo è quello di dare un'interpretazione al livello di utilità 0 naturale. Senza questa specifica l'entropia non ha senso.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.