Il concetto centrale qui è la complessità di Kolmogorov e più specificamente la compressibilità . Per avere una sensazione intuitiva di compressibilità, considera due stringhe e B ∈ B ∗ , dove B = { 0 , 1 } . PermettereA∈B∗B∈B∗B={0,1}
1010 1010 1010 eA=1010 1010 1010 1010
0110 0111 1001 .B=1011 0110 0111 1001
Si noti che . Come possiamo quantificare quante informazioni A o B hanno? Se pensiamo alla teoria dell'informazione classica, in generale, la trasmissione di una stringa di lunghezza n richiede in media n bit. Tuttavia non possiamo dire di quanti bit abbiamo bisogno per trasmettere una stringa specifica di lunghezza n .|A|=|B|=16ABnnn
Perché il contenuto informativo di una stringa casuale non è zero?
Da uno sguardo più da vicino, possiamo vedere che in realtà . Tuttavia, è molto più difficile da dire se B ha qualche modelli evidenti nella sua struttura, almeno sembra e si sente più casuale di A . Poiché possiamo trovare un modello in A , possiamo facilmente comprimere A e rappresentarlo con meno di 16 bit. Allo stesso modo, poiché non è facile rilevare alcun pattern in B , non possiamo comprimerlo tanto. Quindi possiamo dire che B ha più informazioni di quante A . Inoltre, una stringa casuale di lunghezza nA=108BAAA16BBAnha informazioni massime poiché non è possibile comprimerle e quindi rappresentarle con meno di n bit.
Quali sono le informazioni utili, quindi?
Per informazioni utili , sì, c'è una definizione utilizzando una macchina di Turing . Le informazioni utili in x ∈ B ∗ sonoTx∈B∗
minT { l(T)+C(x|T):T∈{T0,T1,...}},
dove indica la lunghezza di una codifica autolimitante per una macchina di Turing T . La notazione è generalmente tale che C ( x ) indica la complessità Kolmogorov di x e C ( x | y ) del condizionale Kolmogorov complessità di x in yl(T)TC(x)xC(x|y)xy .
Qui la quantità di informazioni utili contenute in x . Ciò che potremmo chiedere è quale T scegliere tra quelli che soddisfano il requisito. Il problema è separare un programma più breve x ∗ in parti x ∗ = p q st p rappresenta una T appropriata . Questa è in realtà l'idea stessa che ha generato la lunghezza minima della descrizione (MDL) .TxTx∗x∗=pqpT