Limita la dimensione del NFA più piccolo per L_k-distinto

Considera la lingua $L_{k-distinct}$ composta da tutte le stringhe $k$ -letter sopra $\Sigma$ tale che non vi siano due lettere uguali:

L k - d i s t i n c t : = {w = σ 1 σ 2 . . . σ k ∣ \forall i \in [k] : σ i \in Σ and \forall j \neq i : σ j \neq σ i}

$L_{k-distinct} :=\{w = \sigma_1\sigma_2...\sigma_k \mid \forall i\in[k]: \sigma_i\in\Sigma ~\text{ and }~ \forall j\ne i: \sigma_j\ne\sigma_i \}$

Questa lingua è finita e quindi regolare. In particolare, se $\left|\Sigma\right|=n$ , quindi $\left|L_{k-distinct}\right| = \binom{n}{k} k!$ .

Qual è il più piccolo automa finito non deterministico che accetta questa lingua?

Al momento ho i seguenti limiti superiore e inferiore sciolti:

Il più piccolo NFA che posso costruire ha $4^{k(1+o(1))}\cdot polylog(n)$ stati.
Il seguente lemma implica un limite inferiore di $2^k$ stati:

Lascia che sia una lingua normale. Supponiamo che ci siano coppie tale che se e solo se . Quindi qualsiasi NFA che accetta L ha almeno n stati. $L ⊆ Σ^*$ $n$ $P = \{ (x_i, w_i) \mid 1 ≤ i ≤ n \}$ $x_i\cdot w_j \in L$ $i=j$

Un altro limite inferiore (banale) è il , che è il registro delle dimensioni del DFA più piccolo per la lingua. $log$ $n\choose k$

Sono anche interessato agli NFA che accettano solo una frazione fissa ( ) di , se la dimensione dell'automa è inferiore a . $0<\epsilon<1$ $L_{k-distinct}$ $\epsilon\cdot 4^{k(1+o(1))}\cdot polylog (n)$

Modifica: ho appena iniziato una taglia che ha avuto un errore nel testo.

Volevo dire che potremmo assumere mentre . $k=polylog(n)$ $k=O(log(n))$

Edit2:

La ricompensa finirà presto, quindi se qualcuno è interessato a quello che è forse un modo più semplice per guadagnarlo, considera la seguente lingua:

$L_{(r,k)-distinct} :=\{w : w$ contiene simboli distinti e nessun simbolo appare più di volte . $k$ $r$ $\}$

(cioè ). $L_{(1,k)-distinct} = L_{k-distinct}$

Una costruzione simile a quella nei commenti fornisce l' automa per . $O(e^k\cdot 2^{k\cdot log(1+r)}\cdot poly(n))$ $L_{(r,k)-distinct}$

Questo può essere migliorato? Qual è il limite inferiore migliore che possiamo mostrare per questa lingua?

— RB
fonte

Puoi descrivere il tuo NFA con limite superiore?

— mjqxxxx,

Non posso ancora scriverne perché ci stiamo ancora lavorando e non abbiamo completato la prova. Invece, descriverò un automa molto più semplice di dimensione

: Prendi una famiglia di hash perfetti

. Ogni hash di questo tipo è una funzione

O((2e)k∗2O(log(k))∗log(n)) $O((2e)^k * 2^{O(log(k))} * log(n))$

(n,k) $(n,k)$

H $H$

h:[n]→[k] $h: [n] \to [k]$ . Ciò significa che per ogni sottoinsieme di

di dimensione al massimo

, esiste una funzione

tale da mappare ogni elemento del sottoinsieme su un numero diverso. Dopo l'hashing, l'alfabeto risultante ha

lettere, quindi un automa di dimensione

può accettare la lingua

. [n] $[n]$

k $k$

h∈H $h\in H$

k $k$

2k $2^k$

Lk−distinct $L_{k-distinct}$

— RB

Il limite inferiore indica

solo contando il numero di stati in cui l'NFA può trovarsi dopo esattamente

passi. Non credo di essere a conoscenza di alcun metodo di prova che dia limiti significativamente migliori per la dimensione totale rispetto a ciò che si può ottenere rispetto al solo guardare ciò che accade dopo

passi, per alcuni

. Ma qui, per ogni

c'è un NFA che può trovarsi solo in uno

stati dopo esattamente

stati.(2−o(1))k $(2-o(1))^k$

k/2 $k/2$

t $t$

(2+o(1))k $(2+o(1))^k$

t $t$

— Noam,

Prova (della mia precedente affermazione): il caso più difficile è

; scegli

diversi sottoinsiemi casuali

(dei

simboli dell'alfabeto) di dimensioni esattamente

ciascuno e costruisci un NFA che ha uno stato per ciascuno

con un percorso che porta ad esso se il i primi simboli

sono tutti diversi e sono contenuti in

, e ha un percorso di accettazione se il seguente

t=k/2 $t=k/2$

2k⋅poly(k,logn) $2^k \cdot poly(k, \log n)$

Si $S_i$

n $n$

t $t$

i $i$

t $t$

Si $S_i$

k−t $k-t$ i simboli sono tutti diversi e sono contenuti nel complemento di

. Un argomento conteggio mostrerà che WHP (sulla scelta casuale del

s') questa NFA sarà davvero accettare tutti la lingua desiderata. Si $S_i$

Si $S_i$

— Noam,

Nella costruzione precedente, il modo più semplice per costruire l'NFA avrà uno stato per ogni possibile prefisso di lunghezza

e per ogni possibile suffisso di lunghezza

. Invece, la parte prefisso e la parte suffisso della NFA possono essere costruite in modo ricorsivo usando la stessa costruzione randomizzata (ma ora solo all'interno di

e il suo complemento, rispettivamente) e questo darebbe una dimensione totale

. j<t $j < t$

j>k−t $j > k-t$

Si $S_i$

(4+o(1))k $(4+o(1))^k$

— Noam,

Risposte:

Questa non è una risposta ma un metodo che credo lascerebbe ad un limite inferiore migliorato. Tagliamo il problema dopo aver letto lettera. Indichiamo la famiglia di elemento serie di di e la famiglia di elemento serie di di . Indica gli stati che possono essere raggiunti dopo aver letto gli elementi di (in qualsiasi ordine) di e gli stati da cui è possibile raggiungere uno stato accettante dopo aver letto gli elementi di (in qualsiasi ordine) di $a$ $a$ $[n]$ $\mathcal A$ $b=k-a$ $[n]$ $\mathcal B$ $A$ $S_A$ $B$ $T_B$ . Abbiamo bisogno che se e solo se . Questo dà già un limite inferiore per il numero richiesto di stati e penso che potrebbe dare qualcosa di non banale. $S_A\cap T_B\ne \emptyset$ $A\cap B=\emptyset$

Questo problema richiede essenzialmente un limite inferiore sul numero dei vertici di un ipergrafo il cui grafico a linee è (parzialmente) noto. Problemi simili sono stati studiati, ad esempio, da Bollobas e ci sono diversi metodi di prova noti che possono essere utili.

Aggiornamento 2014/03/24: infatti se l'ipergrafo sopra può essere realizzato vertici, allora anche ottenere un non-deterministico protocollo di comunicazione complessità della lunghezza per disgiunzione set con ingressi insiemi del formato e (infatti i due problemi sono equivalenti). Il collo di bottiglia è ovviamente quando , per questo ho trovato solo quanto segue nel libro di Eyal e Noam: $s$ $\log s$ $a$ $b$ $a=b=k/2$ $N^1(DISJ_a)\le \log \big(2^k \log_e {n\choose a}\big)$ proved by the standard probabilistic argument. Unfortunately I could not (yet) find good enough lower bounds on this problem but assuming the above is sharp, it would give a lower bound $\Omega(2^k\log n)$ unifying the two lower bounds you have mentioned.

— domotorp
fonte

Thanks @domotorp for your answer. This seems a lot like the proof of the lemma I've used for the lower bound in the original question, but without specifying the actual

xi $x_i$ 's and

yi $y_i$ 's, and thus not a countable bound. Your comment on the question above suggests that the

2k $2^k$ bound can't be improved by that method, do you think this could do better?

— R B

The whole point of my comment above was that these techniques can not give a lower bound above

(2+o(1))k $(2+o(1))^k$ . This is really what makes this problem interesting to me.

— Noam

@Noam: Let k=2, a=b=1. Already then we get a

logn $\log n$ lower bound as every

SA $S_A$ has to be different.

— domotorp

@domotorp: The

o(1) $o(1)$ hides a

O(klogn) $O(k\log n)$ factor: Here is the analysis for the worst case where

a=b=k/2 $a=b=k/2$ : Start with a fixed

A $A$ and

$B$ and pick at random a subset

$S$ of the

$n$ letters then we have

$Pr[A \subseteq S \:and\: B \subseteq S^c]=2^{-k}$ . Now pick

$r2^k$ such sets at random then the probability that for at least one of them this happens is

$1-exp(-r)$ . If we choose

$r = O(\log {n \choose k}) = O(k \log n)$ then we get that whp this is so for ALL disjoint sets

$A$ and

$B$ (of size

$k/2$ ). The total number of such

$S$ 's in this construction is

$O(2^k k \log n)$ .

— Noam

@Noam: I am sorry but I have never seen a

$\log n$ hidden in an

$o(1)$ , especially as the problem is also interesting imho for

$k<<\log n$ . But you are right that R B asked about

$k=polylog n$ .

— domotorp

Some work in progress:

I'm trying to prove a lower bound of $4^k$ . Here is a question that I'm pretty sure would give such a lower bound: find the minimum $t$ such that there exists a function $f:\{S \subseteq [n], |S|=k/2 \} \rightarrow \{0,1\}^t$ that preserves disjointness, i.e. that $S_1 \cap S_2 = \emptyset$ iff $f(S_1) \cap f(S_2) = \emptyset$ . I'm pretty sure a lower bound of $t \ge 2k$ would almost immediately imply a lower bound of $2^{2k}=4k$ for our problem. $f(S)$ roughly corresponds to the set of nodes the NFA can get to after reading the first $k/2$ symbols of the input, when the set of these $k/2$ symbols is $S$ .

I think the solution to this question might already be known, either in the communication complexity literature (especially in papers dealing with the disjointness problem; maybe some matrix rank arguments will help), or in literature about encodings (e.g. like this).

— mobius dumpling
fonte

My comments above show that this approach cannot beat

$(2+o(1))^n$

— Noam