Teoria dell'informazione usata per dimostrare affermazioni combinatorie ordinate?


54

Quali sono i tuoi esempi preferiti in cui la teoria dell'informazione viene utilizzata per dimostrare in modo semplice un'affermazione combinatoria accurata?

Alcuni esempi a cui riesco a pensare sono legati a limiti inferiori per codici decodificabili localmente, ad esempio, in questo documento: supponiamo che per un gruppo di stringhe binarie di lunghezza che valga che per ogni , per diverso coppie { },Quindi m è almeno esponenziale in n, dove l'esponente dipende linearmente dal rapporto medio di . n i k i j 1 , j 2 e i = x j 1x j 2 . k i / mx1,...,xmnikij1,j2

ei=xj1xj2.
ki/m

Un altro esempio (correlato) sono alcune disuguaglianze isoperimetriche sul cubo booleano (sentiti libero di approfondire questo nelle tue risposte).

Hai altri esempi carini? Preferibilmente, breve e facile da spiegare.


qualcuno può dare un riferimento a "Un altro esempio (correlato) sono alcune disuguaglianze isoperimetriche sul cubo booleano"?
vzn

Risposte:


40

La prova di Moser del costruttivo Lovasz Local Lemma . In pratica dimostra che, nelle condizioni del lemma locale, il secondo algoritmo più semplice per SAT si può pensare alle opere. (Il primo più semplice potrebbe essere quello di provare un compito casuale fino a quando uno non funziona. Il secondo più semplice è prendere un compito casuale, trovare una clausola insoddisfatta, soddisfarla, quindi vedere quali altre clausole hai rotto, ricorrere e ripetere fino al termine.) La prova che questo corre nel tempo polinomiale è forse l'uso più elegante della teoria dell'informazione (o complessità di Kolmogorov, qualunque cosa tu voglia chiamarla in questo caso) che io abbia mai visto.


1
La bella prova di complessità Kolmogorov di Moser è spiegata qui: blog.computationalcomplexity.org/2009/06/… , ma devo ammettere che stavo cercando più un esempio di entropia / mutua informazione / calcolo ...
Dana Moshkovitz,

Ci sono alcune applicazioni piuttosto interessanti della complessità di Kolmogorov date come risposte a questa domanda: cstheory.stackexchange.com/questions/286
arnab

Terry Tao ha anche discusso dell'argomento di Moser sul suo blog: terrytao.wordpress.com/2009/08/05/…
Anthony Leverrier,

5
In realtà, nel suo secondo articolo (con Tardos) non è più necessario ricorrere alla ricorsione. Basta cercare una clausola insoddisfatta, scegliere un'assegnazione casuale per le sue variabili e iterare . Questo è tutto. Per qualche motivo l'algoritmo più semplice (con la stessa analisi) non si è bloccato.
Yuval Filmus

@DanaMoshkovitz: non so perché questo non mi sia venuto in mente di dirlo prima in risposta al tuo commento: la complessità e l'entropia di Kolmogorov sono, in molti modi, essenzialmente equivalenti. Vedi ad esempio Hammer-Romaschenko-Shen-Vershchagin: dx.doi.org/10.1006/jcss.1999.1677 . Ad esempio, basato su [HRSV], la prova del Lemma di Shearer nella risposta di arnab può essere dimostrata essenzialmente con la stessa prova usando la complessità di Kolmogorov al posto dell'entropia. La differenza è solo dal punto di vista: K riguarda la lunghezza della descrizione, H è circa ... A volte uno è più facile / più naturale dell'altro. pilogpi
Joshua Grochow,

33

Il mio esempio preferito di questo tipo è la prova basata sull'entropia del Lemma di Shearer's. (Ho imparato di questa prova e molti altri quelli molto carine da di Jaikumar Radhakrishnan Entropia e di conteggio .)

Reclama: Supponi di avere punti in che hanno distinte proiezioni sul piano , distinte proiezioni sul piano e distinte proiezioni sul piano . Quindi, .R 3 n x y z n y x z n z x y n 2n x n y n znR3nxyznyxznzxyn2nxnynz

Prova: Sia un punto scelto in modo uniforme a casaccio dagli punti. Lascia che , , denotino le sue proiezioni rispettivamente sui piani , e . n p x p y p z y z x z x yp=(x,y,z)npxpypzyzxzxy

Da un lato, , , e , in base alle proprietà di base dell'entropia.H [ p x ] log n x H [ p y ] log n y H [ p z ] log n zH[p]=lognH[px]lognxH[py]lognyH[pz]lognz

D'altra parte, abbiamo e anche L'aggiunta delle ultime tre equazioni ci dà: , dove abbiamo usato il fatto che il condizionamento diminuisce l'entropia (in generale, per eventuali variabili casuali ).H [ p x ] = H [ y ] + H [ z | y ] H [ p y ] = H [ x ] + H [ z | x ] H [

H[p]=H[x]+H[y|x]+H[z|x,y]
H[px]=H[y]+H[z|y]
H[py]=H[x]+H[z|x]
H [ p x ] + H [ p y ] + H [ p z ] = 2 H [ x ] + H [ y ] + H [ y | x ] + H [ z | x ] + H [ z
H[pz]=H[x]+H[y|x]
H[px]+H[py]+H[pz]= 2H[x]+H[y]+ H[y|x]+ H[z|x] 2 H [ x ] + 2 H [ y | x ] + 2 H [ z | x , y ] = 2 H [ p ] H [ a ] H [ a | b ] a , b+H[z|y] 2H[x]+2H[y|x]+2H[z|x,y]= 2H[p]H[a]H[a|b]a,b

Pertanto, abbiamo o .2lognlognx+logny+lognzn2nxnynz


6
Un documento correlato da verificare è "Ipergrafi, entropia e disuguaglianze" di Ehud Friedgut. Mostra come una prospettiva entropica, in particolare un Lemma di Shearer generalizzato, può facilmente recuperare molte disuguaglianze standard, e anche alcune non standard, dall'aspetto complicato. Penso che offra una prospettiva illuminante. Link: ma.huji.ac.il/~ehudf/docs/KKLBKKKL.pdf
Andy Drucker

26

La prova entropica di Radhakrishnan del Teorema di Bregman, secondo cui il numero di corrispondenze perfette in un grafico bipartito è al massimo . La dimostrazione usa due idee molto intelligenti. Ecco uno schizzo della prova:p(LR,E)vL(d(v)!)1/d(v)

  • Seleziona una perfetta corrispondente in modo uniforme. L'entropia di questa variabile è .MH(M)=logp
  • Per , lascia essere il vertice in che è compensata con in .vLXvRvM
  • La variabile ha le stesse informazioni di , quindi .X=(Xv:vL)MH(M)=H(X)
  • Idea intelligente 1: Selezionando in modo casuale (e uniformemente) un ordine su , Radhakrishnan fornisce una "regola a catena randomizzata" che afferma .LH(X)=vLH(Xv|Xu:u<v,)
  • Dalle informazioni nelle condizioni ( ) possiamo determinare(approssimativamente: il numero di scelte per la corrispondenza ).Xu:u<v,Nv=|N(v)Xu:u<v|v
  • Poiché è determinato da queste informazioni, l'entropia condizionata non cambia nell'uguaglianza .NvH(Xv|Xu:u<v,)=H(Xv|Xu:u<v,,Nv)
  • Idea intelligente 2: "dimenticando" le informazioni , possiamo solo aumentare l'entropia: .Xu:u<v,H(Xv|Xu:u<v,,Nv)H(Xv|Nv)
  • Fatto pazzo: la variabile è distribuita uniformemente sull'insieme .Nv1,,d(v)
  • Ora, per calcolare l'entropia , tutti i valori di :H(Xv|Nv)NvH(Xv|Nv)=i=1d(v)1d(v)H(Xv|Nv=i)1d(v)i=1d(v)logi=log((d(v)!)1/d(v)).
  • Il risultato segue unendo tutte le disuguaglianze e prendendo esponenti.

La generalizzazione di questa disuguaglianza è il teorema di Kahn-Lovász: il numero di corrispondenze perfette in qualsiasi grafico è al massimo . Una prova entropica di questo risultato è stata dimostrata da Cutler e Radcliffe .GvV(G)(d(v)!)1/2d(v)


1
Ottimo esempio! Un piccolo punto: quando si stima , probabilmente si può solo dire che è limitato da . H(XvNv)H(XvNv=i)logi
Srikanth,

Hai assolutamente ragione e ho modificato la risposta per usare una disuguaglianza.
Derrick Stolee,

20

Esempi molto belli sono contenuti in due articoli di Pippenger Un metodo teorico dell'informazione nella teoria combinatoria. J. Comb. Teoria, ser. A 23 (1): 99-104 (1977) ed Entropia ed enumerazione delle funzioni booleane. Transazioni IEEE sulla teoria dell'informazione 45 (6): 2096-2100 (1999). In realtà, diversi articoli di Pippenger contengono simpatiche prove di fatti combinatori mediante entropia / informazione reciproca. Inoltre, i due libri: Jukna, Extremal Combinatorics With Applications in Computer Science e Aigner, Combinatorial Search hanno alcuni esempi interessanti. Mi piacciono anche i due articoli Madiman et al. Disuguaglianze teoriche dell'informazione nella combinazione additiva e Terence Tao, stime del sommario Entropy (le puoi trovare con Google Scholar). Spero che sia d'aiuto.


Sembra un'ottima lista di lettura!
Dana Moshkovitz,

17

Un altro grande esempio è la prova alternativa di Terry Tao del lemma della regolarità del grafico di Szemerédi . Usa una prospettiva teorica dell'informazione per dimostrare una versione forte del lemma della regolarità, che si rivela estremamente utile nella sua prova del lemma della regolarità per gli ipergrafi . La dimostrazione di Tao è, di gran lunga, la prova più concisa per il lemma della regolarità dell'ipergrafo.

Vorrei provare a spiegare a un livello molto alto questa prospettiva teorica dell'informazione.

Supponiamo di avere un grafico bipartito , con i due set di vertici e e il bordo impostato E un sottoinsieme di . La densità del bordo di è. Diciamo che è -regolare se per tutti e , la densità del bordo del sottografo indotta da e è.GV1V2V1×V2Gρ=|E|/|V1||V2|GϵU1V1U2V2U1U2ρ±ϵ|U1||U2|/|V1||V2|

Ora, considera di selezionare un vertice da e un vertice da , indipendentemente e uniformemente a caso. Se è piccolo e sono grandi, possiamo interpretare -regolarità di come dire che il condizionamento di essere in e di essere in non influisce molto sulla probabilità che formi un bordo in . In altre parole, anche dopo che ci sono state fornite le informazioni che è in ex1V1x2V2ϵU1,U2ϵGx1U1x2U2(x1,x2)Gx1U1x2 è in , non abbiamo acquisito molte informazioni sul fatto che sia un vantaggio o meno.U2(x1,x2)

Il lemma di regolarità di Szemeredi (informalmente) garantisce che per qualsiasi grafico, si può trovare una partizione di e una partizione di in sottoinsiemi di densità costante tali che per la maggior parte di tali coppie di sottoinsiemi , l'indotto sottoregramma su è -regular. Effettuando l'interpretazione di cui sopra, date due variabili ad alta entropia e e qualsiasi evento , è possibile trovare variabili a bassa entropia e - "bassa- entropia "perché i sottoinsiemi eV1V2U1V1,U2V2U1×U2ϵx1x2E(x1,x2)U1(x1)U2(x2)U1U2 hanno una densità costante - tale che è approssimativamente indipendente da e o che le informazioni reciproche tra le variabili sono molto piccole. Tao in realtà formula una versione molto più forte del lemma della regolarità usando questa configurazione. Ad esempio, non richiede che e siano variabili indipendenti (sebbene non ci sia ancora stata un'applicazione di questa generalizzazione, per quanto ne so). Ex1|U1x2|U2x1x2


15

C'è sostanzialmente un intero corso dedicato a questa domanda:

https://catalyst.uw.edu/workspace/anuprao/15415/86751

Il corso è ancora in corso. Quindi non tutte le note sono disponibili al momento della stesura di questo. Inoltre, alcuni esempi del corso sono già stati menzionati.


3
bel puntatore: sembra un'ottima classe.
Suresh Venkat,

1
Per quanto posso dire, questa offerta è a metà corso, con note contenenti alcuni esempi che forniscono buone risposte alla mia domanda e mezzo seminario, che coprono esempi come limiti inferiori di comunicazione, estrattori, ripetizione parallela, ecc., Che richiedono molto più di un semplice teoria dell'informazione (qui non ci sono note, solo collegamenti ai documenti originali).
Dana Moshkovitz,

7

Supponiamo di avere punti in e di voler ridurre la dimensione. Se vogliamo che le distanze a coppie cambino al massimo di , possiamo ridurre la nostra dimensione da a . Questo è Johnson-Lindenstrauss Lemma . Per un decennio il limite inferiore più noto per una dimensione era di Alon, quindi c'era un gap di dimensioni . Di recente, Jayram e Woodruff hanno chiuson2d1±ϵdO(logn/ϵ2)Ω(logn/(ϵ2log(1/ϵ)))log(1/ϵ)questo divario migliorando il limite inferiore di Alon. La loro prova si basa a malapena sulla struttura geometrica. Quello che fanno è dimostrare che se fosse possibile un limite migliore, ciò violerebbe una particolare complessità di comunicazione limite inferiore. E questo limite è dimostrato usando strumenti teorici dell'informazione.


4
Un altro esempio di incorporamenti metrici: Regev ha recentemente mostrato una breve dimostrazione dei migliori limiti per l'incorporamento in , usando argomenti entropici. 1d
Arnab,

Sembra molto naturale e bello che questi risultati puramente geometrici siano stati dimostrati dalle persone TCS!
ilyaraz,

6

Considera il seguente problema piuttosto fondamentale nel mondo delle strutture di dati. Hai un universo di dimensioni . Si desidera memorizzare un elemento come una struttura di dati statici, in modo che quando un utente vuole sapere se per qualche se , solo bit sono necessari sonde nella struttura di dati , dove è una costante fissa. L'obiettivo è ridurre al minimo la complessità dello spazio della struttura dei dati (in termini di numero di bit memorizzati).mu[m]x[m]x=utt

Si può costruire una tale struttura di dati di dimensione . L'idea è semplice Dividere i bit necessari per descrivere in blocchi. Per ogni e per ogni possibile bistring di lunghezza , memorizza nella struttura dei dati se l' blocco di uguale a quella stringa di bit.O(m1/t)logmuti[t](logm)/tiu

Ora, per il limite inferiore. Sia un elemento uniformemente scelto a caso da . Chiaramente, . Se sono i bit rilevati nella struttura dei dati (possibilmente adattivamente) in quella sequenza, quindi: , dove è la dimensione della struttura dei dati. Questo dà: .X[m]H[X]=logmX1,,XttH[X]=H[X1]+H[X2|X1]++H[Xt|X1,,Xt1]tlogsssm1/t

I limiti stretti non sono noti se si desidera memorizzare due elementi et . Vedi qui per i migliori risultati in questa direzione.t>1


5

Un grande esempio è il documento " Ordinamento ed entropia " di Kahn e Kim. Il metodo di entropia è utilizzato per trovare un algoritmo che dato un noto poset ed un unknon lineari estensione del , trovare l'estensione lineare da query in cui è l'insieme di estensioni lineari di .P O ( log | X | ) X PPPO(log|X|)XP


3

Analisi di casi medi di algoritmi usando la complessità di Kolmogorov di Jiang, Li, Vitanyi.

'L'analisi della complessità media degli algoritmi è un problema molto pratico ma molto difficile nell'informatica. Negli ultimi anni abbiamo dimostrato che la complessità di Kolmogorov è uno strumento importante per l'analisi della complessità media degli algoritmi. Abbiamo sviluppato il metodo dell'incomprimibilità [7]. In questo documento usiamo diversi semplici esempi per dimostrare ulteriormente la potenza e la semplicità di tale metodo. Dimostriamo limiti sul numero medio di stack (code) richiesti per l'ordinamento di Queueusort o Stacksort sequenziali o paralleli. "

Vedi anche, ad esempio, la complessità di Kolmogorov e un problema triangolare di tipo Heilbronn .


3

L'equivalenza del campionamento e della ricerca di Scott Aaronson. Qui mostra l'equivalenza del campionamento e del problema di ricerca nella teoria della complessità riguardo alla validità della tesi estesa di Church-Turing. La teoria dell'informazione standard, la teoria dell'informazione algoritmica e la complessità di Kolmogorov sono utilizzate in modo fondamentale.

Sottolinea:
" Sottolineiamo che non stiamo usando la complessità di Kolmogorov solo come convenienza tecnica, o come stenografia per un argomento di conteggio. Piuttosto, la complessità di Kolmogorov sembra essenziale anche per definire un problema di ricerca ... "


0

Questa è semplice e anche un'approssimazione: quante combinazioni di 10 6 cose su 10 9 , che consentono duplicati? La formula corretta è

N = (10 6 + 10 9 )! / (10 6 ! 10 9 !) ~ = 2 11409189.141937481

Ma immagina di dare istruzioni per camminare lungo una fila di un miliardo di secchi, lasciando cadere un milione di biglie nei secchi lungo la strada. Ci saranno ~ 10 9 istruzioni per "passare al secchio successivo" e 10 6 istruzioni per "rilasciare un marmo". L'informazione totale è

log 2 (N) ~ = -10 6 log 2 (10 6 / (10 6 + 10 9 )) - 10 9 log 2 (10 9 / (10 6 + 10 9 )) ~ = 11409200.432742426

che è un modo divertente, ma piuttosto buono per approssimare il conteggio (registro del). Mi piace perché funziona se dimentico come fare la combinatoria. È equivalente a dirlo

(a + b)! / a! b! ~ = (a + b) (a + b) / a a b b

che è come usare l'approssimazione di Stirling, cancellare e perdere qualcosa.


2
Ciò può essere più leggibile se si esegue il limite generale anziché i numeri specifici. Penso che tu stia parlando dell'approssimazione basata sull'entropia del volume di una palla di Hamming.
Sasho Nikolov,

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.