Stavo leggendo degli algoritmi di compressione dei dati e il limite teorico per la compressione dei dati. Recentemente ho incontrato un metodo di compressione chiamato "Codifica di entropia combinatoria", l'idea principale di questo metodo è di codificare il file come i caratteri presentati nel file, le loro frequenze e l'indice di permutazione di questi caratteri rappresentato dal file.
Questi documenti possono aiutare a spiegare questo metodo:
https://arxiv.org/pdf/1703.08127
http://www-video.eecs.berkeley.edu/papers/vdai/dcc2003.pdf
https://www.thinkmind.org/download.php?articleid=ctrq_2014_2_10_70019
Tuttavia, nel primo documento ho letto che usando questo metodo potevano comprimere un po 'di testo a meno del limite di Shannon (Non consideravano lo spazio necessario per salvare la frequenza dei caratteri e lo spazio necessario per salvare il meta dati del file). Ci ho pensato e ho scoperto che questo metodo non sarà molto efficiente per file molto piccoli, ma d'altra parte potrebbe funzionare bene con file di grandi dimensioni. In realtà non capisco molto bene questo algoritmo o il limite di Shannon, so solo che è la somma della probabilità di ciascun carattere moltiplicata per del reciproco della probabilità.
Quindi ho alcune domande:
Questo metodo di compressione comprime davvero i file a dimensioni inferiori al limite di Shannon?
Esiste un algoritmo di compressione che comprime i file al di sotto del limite di Shannon (la risposta a questa domanda per quanto ne so è no)?
Può mai esistere un metodo di compressione che comprime file di dimensioni inferiori al limite di Shannon?
Se la codifica combinatoria comprime davvero i file oltre il limite di Shannon, non è possibile comprimere il file più e più volte fino a raggiungere le dimensioni desiderate?