Sto cercando di misurare ora molte informazioni (ridondanti) non ridondanti contenute nel mio file. Alcuni lo chiamano la quantità di entropia.
Ovviamente esiste lo standard p (x) log {p (x)}, ma penso che Shannon lo considerasse solo dal punto di vista della trasmissione attraverso un canale. Quindi la formula richiede una dimensione di blocco (diciamo in bit, in genere 8). Per un file di grandi dimensioni, questo calcolo è abbastanza inutile, ignorando le correlazioni a breve o lunga distanza tra i simboli.
Esistono metodi di albero binario e Ziv-Lempel, ma questi sembrano di natura altamente accademica.
Anche la compressibilità è considerata una misura di entropia, ma non sembra esserci un limite inferiore per quanto riguarda il grado di compressione. Per il mio file hiss.wav,
- hiss.wav originale = 5,2 MB
- entropia tramite la formula di Shannon = 4.6 MB
- hiss.zip = 4.6 MB
- hiss.7z = 4.2 MB
- hiss.wav.fp8 = 3.3 MB
Esiste un metodo ragionevolmente praticabile per misurare quanta entropia esiste all'interno di hiss.wav?