"Qual è il modo più corretto informazioni / fisica-teorica per calcolare l'entropia di un'immagine?"
Una domanda eccellente e puntuale.
Contrariamente alla credenza popolare, è davvero possibile definire un'entropia di informazioni intuitiva (e teoricamente) naturale per un'immagine.
Considera la seguente figura:
Possiamo vedere che l'immagine differenziale ha un istogramma più compatto, quindi la sua entropia di informazioni di Shannon è inferiore. Quindi possiamo ottenere una ridondanza inferiore usando l'entropia di Shannon del secondo ordine (ovvero l'entropia derivata da dati differenziali). Se possiamo estendere questa idea isotropicamente in 2D, potremmo aspettarci buone stime per l'entropia delle informazioni sull'immagine.
Un istogramma bidimensionale di gradienti consente l'estensione 2D.
Possiamo formalizzare gli argomenti e, in effetti, questo è stato completato di recente. Ricapitolando brevemente:
L'osservazione che la semplice definizione (vedi ad esempio la definizione di entropia dell'immagine di MATLAB) ignora la struttura spaziale è cruciale. Per capire cosa sta succedendo vale la pena tornare brevemente al caso 1D. È noto da tempo che l'utilizzo dell'istogramma di un segnale per calcolare la sua informazione / entropia di Shannon ignora la struttura temporale o spaziale e fornisce una scarsa stima della compressibilità o ridondanza intrinseca del segnale. La soluzione era già disponibile nel testo classico di Shannon; utilizzare le proprietà del secondo ordine del segnale, ovvero le probabilità di transizione. L'osservazione nel 1971 (Rice & Plaunt) che il miglior predittore di un valore di pixel in una scansione raster è il valore del pixel precedente porta immediatamente a un predittore differenziale e ad un'entropia di Shannon del secondo ordine che si allinea con semplici idee di compressione come la codifica della lunghezza della corsa. Queste idee sono state perfezionate alla fine degli anni '80, dando vita ad alcune classiche tecniche di codifica di immagini lossless (differenziali) ancora in uso (PNG, JPG lossless, GIF, JPG2000 lossless) mentre le wavelet e i DCT vengono utilizzati solo per la codifica lossy.
Passando ora al 2D; i ricercatori hanno trovato molto difficile estendere le idee di Shannon a dimensioni più elevate senza introdurre una dipendenza dall'orientamento. Intuitivamente potremmo aspettarci che l'entropia informativa di Shannon di un'immagine sia indipendente dal suo orientamento. Ci aspettiamo anche che le immagini con una struttura spaziale complicata (come l'esempio di rumore casuale dell'interrogatore) abbiano un'entropia di informazioni superiore rispetto alle immagini con una struttura spaziale semplice (come l'esempio di scala di grigio uniforme dell'interrogatore). Si scopre che il motivo per cui è stato così difficile estendere le idee di Shannon dalla 1D al 2D è che esiste una asimmetria (unilaterale) nella formulazione originale di Shannon che impedisce una formulazione simmetrica (isotropica) in 2D. Una volta corretta l'asimmetria 1D, l'estensione 2D può procedere facilmente e naturalmente.
In procinto di inseguire (i lettori interessati possono consultare l'esposizione dettagliata nella prestampa di arXiv su https://arxiv.org/abs/1609.01117 ) in cui l'entropia dell'immagine è calcolata da un istogramma 2D di gradienti (funzione di densità della probabilità del gradiente).
Innanzitutto il pdf 2D viene calcolato dalle stime binning delle immagini x e derivati. Questo assomiglia all'operazione di binning utilizzata per generare l'istogramma di intensità più comune in 1D. I derivati possono essere stimati mediante differenze finite di 2 pixel calcolate nelle direzioni orizzontale e verticale. Per un'immagine quadrata NxN f (x, y) calcoliamo i valori NxN della derivata parziale fx e i valori NxN di fy. Effettuiamo la scansione dell'immagine differenziale e per ogni pixel che utilizziamo (fx, fy) per individuare un bin discreto nell'array di destinazione (pdf pdf) che viene quindi incrementato di uno. Ripetiamo per tutti i pixel NxN. Il pdf 2D risultante deve essere normalizzato per avere una probabilità unitaria complessiva (semplicemente dividendo per NxN per raggiungere questo obiettivo). Il pdf 2D è ora pronto per la fase successiva.
Il calcolo dell'entropia di informazioni 2D di Shannon dal pdf gradiente 2D è semplice. La classica formula di sommatoria logaritmica di Shannon si applica direttamente ad eccezione di un fattore cruciale della metà che origina da speciali considerazioni di campionamento bandlimited per un'immagine a gradiente (vedi carta arXiv per i dettagli). Il mezzo fattore rende l'entropia 2D calcolata ancora più bassa rispetto ad altri metodi (più ridondanti) per stimare l'entropia 2D o la compressione senza perdita.
Mi dispiace di non aver scritto le equazioni necessarie qui, ma tutto è disponibile nel testo della prestampa. I calcoli sono diretti (non iterativi) e la complessità computazionale è di ordine (il numero di pixel) NxN. L'entropia di informazioni di Shannon calcolata finale è indipendente dalla rotazione e corrisponde esattamente al numero di bit richiesti per codificare l'immagine in una rappresentazione gradiente non ridondante.
A proposito, la nuova misura di entropia 2D prevede un'entropia (intuitivamente gradevole) di 8 bit per pixel per l'immagine casuale e 0.000 bit per pixel per l'immagine sfumata uniforme nella domanda originale.