Una classe speciale di lingue: lingue "circolari". È noto?

20

Definire la seguente classe di lingue "circolari" su un alfabeto finito Sigma. In realtà, il nome esiste già per indicare una cosa diversa che sembra, utilizzata nel campo dell'informatica del DNA. AFAICT, questa è una diversa classe di lingue.

Una lingua L è circolare iff per tutte le parole $w$ in $\Sigma^*$ , abbiamo:

$w$ appartiene a L se e solo se per tutti gli interi $k > 0$ , $w^k$ appartiene a L.

Questa classe di lingue è nota? Sono interessato alle lingue circolari che sono anche regolari e in particolare a:

un nome per loro, se sono già noti
decidibilità del problema, dato un automa (in particolare: un DFA), se la lingua accettata obbedisce alla definizione di cui sopra

fl.formal-languages automata-theory regular-language

— vincenzoml
fonte

1

Questa è una domanda molto interessante Due domande correlate: 1) se abbiamo un linguaggio L regolare e un DFA associato, possiamo renderlo circolare? 2) Data la lingua L, è il caso che circ (L) sia regolare o abbia delle belle proprietà?

— Suresh Venkat,

ps forse questo è ovvio, ma perché pensi che le lingue circolari siano una sottoclasse di lingue normali?

— Suresh Venkat,

3

@Suresh, penso che stia definendo una lingua circolare se è a) regolare; b) soddisfa una proprietà di chiusura

\forall w \in L, n \in N : w^{n} \in L

$\forall w \in L, n \in \mathbb{N} : w^n \in L$ .

— Peter Taylor,

Crosspost in MO .

— Hsien-Chih Chang 張顯之

1

Forse grazie non dovrebbe essere pubblicato, ma questa è stata la mia prima domanda e ho apprezzato molto la qualità dei commenti, delle risposte e della discussione. Grazie.

— vincenzoml,

19

Nella prima parte, mostriamo un algoritmo esponenziale per decidere la circolarità. Nella seconda parte, mostriamo che questo è un problema difficile. Nella terza parte, mostriamo che ogni lingua circolare è un'unione di lingue nella forma (qui potrebbe essere la regexp vuota); l'unione non è necessariamente disgiunta. Nella quarta parte, mostriamo un linguaggio circolare che non può essere scritto come somma disgiunta . $r^+$ $r$ $\sum r_i^+$

Modifica: incorporate alcune correzioni a seguito dei commenti di Mark. In particolare, le mie precedenti affermazioni che la circolarità è completa o NP-difficile sono state corrette.

Modifica: corretto modulo normale da a . Esibiva un linguaggio "intrinsecamente ambiguo". $\sum r_i^*$ $\sum r_i^+$

Continuando il commento di Peter Taylor, ecco come decidere (estremamente inefficientemente) se una lingua è circolare dato il suo DFA. Costruisci un nuovo DFA i cui stati sono tuple dei vecchi stati. Questo nuovo DFA esegue in parallelo copie del vecchio DFA. $n$ $n$

Se la lingua non è circolare, allora esiste una parola tale che se la eseguiamo ripetutamente attraverso il DFA, iniziando con lo stato iniziale , otteniamo stati tali che accetta ma uno degli altri non accetta (se tutti accettano, allora la sequenza deve scorrere in modo che sia sempre nella lingua). In altre parole, abbiamo un percorso da $w$ $s_0$ $s_1,\ldots,s_n$ $s_1$ $s_0,\ldots,s_n$ $w^*$ a dove accetta ma uno degli altri non accetta. Al contrario, se la lingua è circolare, ciò non può accadere. $s_0,\ldots,s_{n-1}$ $s_1,\ldots,s_n$ $s_1$

Quindi abbiamo ridotto il problema a un semplice test di raggiungibilità diretto (basta controllare tutte le possibili -tuple "cattive" ). $n$

Il problema della circolarità è difficile da affrontare. Supponiamo di avere un'istanza 3SAT con variabili e clausole . Possiamo supporre che (aggiungi variabili fittizie) e che sia primo (altrimenti trova un numero primo tra e usando il test di primalità AKS e aggiungi variabili e clausole fittizie). $n$ $\vec{x}$ $m$ $C_1,\ldots,C_m$ $n = m$ $n$ $n$ $2n$

Considera la seguente lingua: "l'input non è nel formato dove è un compito soddisfacente per ". È facile costruire un DFA per questa lingua. Se la lingua non è circolare, allora c'è una parola nella lingua, un certo potere che non è nella lingua. Poiché le uniche parole non nella lingua hanno lunghezza , deve essere di lunghezza o . Se è di lunghezza $\vec{x}_1 \cdots \vec{x}_n$ $\vec{x}_i$ $C_i$ $O(n^2)$ $w$ $n^2$ $w$ $1$ $n$ , si consideri , invece (è ancora in lingua), in modo che è nella lingua e non è nella lingua. Il fatto che non è nei mezzi linguistici che è un soddisfacente assegnazione. $1$ $w^n$ $w$ $w^n$ $w^n$ $w$

Al contrario, ogni incarico soddisfacente si traduce in una parola dimostrare la non circolarità della lingua: l'assegnazione soddisfare appartiene al linguaggio, ma non lo fa. Pertanto la lingua è circolare se l'istanza 3SAT non è soddisfacente. $w$ $w^n$

In questa parte, discutiamo di una forma normale per le lingue circolari. Consideriamo alcuni DFA per un linguaggio circolare . Una sequenza è reale se (lo stato iniziale), tutti gli altri stati accettano, e implica . Quindi ogni sequenza reale è infine periodica e ci sono solo finitamente molte sequenze reali (poiché il DFA ha finitamente molti stati). $L$ $C = C_0,\ldots$ $C_0 = s$ $C_i = C_j$ $C_{i+1} = C_{j+1}$

Diciamo che una parola si comporta secondo $C$ se la parola prende il DFA dallo stato allo stato , per tutti . L'insieme di tutte queste parole è regolare (l'argomento è simile alla prima parte di questa risposta). Si noti che è un sottoinsieme di . $c_i$ $c_{i+1}$ $i$ $E(C)$ $E(C)$ $L$

Data una sequenza reale , definisci come sequenza . Anche la sequenza è reale. Poiché ci sono solo molte sequenze finite , anche la lingua che è l'unione di tutte le è regolare. $C$ $C^k$ $C^k(t) = C(kt)$ $C^k$ $C^k$ $D(C)$ $E(C^k)$

Affermiamo che ha la proprietà che se quindi . Supponiamo infatti che e . Quindi . Quindi può essere scritto nella forma $D(C)$ $x,y \in D(C)$ $xy \in D(C)$ $x \in C^k$ $y \in C^l$ $xy \in C^{k+l}$ $D(C) = D(C)^+$ per alcune espressioni regolari . $r^+$ $r$

Ogni parola nei corrisponde lingua in una certa sequenza reale , vale a dire che esiste una vera e propria sequenza di che comporta secondo. Quindi è l'unione di su tutto il settore sequenza . Pertanto ogni linguaggio circolare ha una rappresentazione della forma . Al contrario, ogni linguaggio di questo tipo è circolare (banalmente). $w$ $C$ $C$ $w$ $L$ $D(C)$ $C$ $\sum r_i^+$

Considera il linguaggio circolare di tutte le parole sopra che contengono un numero pari o 'o un numero pari di ' (o entrambi). Mostriamo che non può essere scritto come una somma disgiunta ; per "disgiunto" intendiamo che . $L$ $a,b$ $a$ $b$ $\sum r_i^+$ $r_i^+ \cap r_j^+ = \varnothing$

$N_i$ $r_i^+$ $N > \max N_i$ $x = a^N b^{N!}$ $x \in L$ $x \in r_i^+$ $i$ $x$ $N$ $r_i^+$ $z = a^{N!} b^{N!}$ $y = a^{N!} b^N$ $r_j^+$ $z$ $i \neq j$ $xy \notin L$ . Pertanto la rappresentazione non può essere disgiunta.

— Yuval Filmus
fonte

Sembra che ci siano un certo numero di errori qui. Stai riducendo da UNSAT, non da SAT, quindi stai mostrando che è difficile da usare. Qual è il tuo testimone temporale polinomiale per (non) membri?

— Mark Reitblatt,

"Dato che le uniche parole non nella lingua hanno lunghezza " Non dovrebbe essere ?

n^{2}

$n^2$

n m

$nm$

— Mark Reitblatt,

Non penso che sia "banalmente in coNP". Almeno, non è banalmente ovvio per me. Il certificato "ovvio" sarebbe una stringa nella lingua e un potere tale che non è nella lingua. Ma non è immediatamente ovvio per me perché una parola del genere debba avere dimensioni polinomiali. Forse è un semplice fatto di teoria degli automi che sto trascurando.

l

$l$

k

$k$

l^{k}

$l^k$

— Mark Reitblatt,

Un difetto apparente ancora più grave è che si salta da ogni clausola per essere soddisfacente individualmente all'intera formula per essere soddisfacente. A meno che non stia leggendo male, ovviamente.

— Mark Reitblatt,

Concordo sul fatto che non è chiaro che la circolarità sia in CoNP. D'altra parte, non vedo problemi nel resto dell'argomento (ora che ho messo ). Se ogni clausola è soddisfatta dalla stessa assegnazione, allora l'istanza 3SAT è soddisfatta da questa assegnazione.

n = m

$n = m$

— Yuval Filmus,

17

Ecco alcuni articoli che parlano di queste lingue:

Thierry Cachat, Il potere dei linguaggi razionali a una lettera, DLT 2001, Springer LNCS # 2295 (2002), 145-154.

S. Hovath, P. Leupold e G. Lischke, Radici e poteri delle lingue normali, DLT 2002, Springer LNCS # 2450 (2003), 220-230.

H. Bordihn, la mancanza di contesto del potere dei linguaggi senza contesto è indecidibile, TCS 314 (2004), 445-449.

— Jeffrey Shallit
fonte

6

@Dave Clarke, L = a * | b * sarebbe circolare, ma L * sarebbe (a | b) *.

In termini di decidibilità, una lingua è circolare se esiste una tale che è la chiusura sotto + di o se è un'unione finita di lingue circolari. $L$ $L'$ $L$ $L'$

(Sto morendo dalla voglia di ridefinire "circolare" sostituendo il tuo con . Semplifica molto le cose. Possiamo quindi caratterizzare le lingue circolari come quelle per le quali esiste un NDFA il cui stato iniziale ha solo transizioni epsilon per accettare stati e ha una transizione epsilon verso ciascuno stato accettante). $>$ $\ge$

— Peter Taylor
fonte

Hai ragione. Ho rimosso il mio post errato.

— Dave Clarke,

Per quanto riguarda l'adattamento con : sto pensando che un DFA minimo dovrebbe sempre avere esattamente uno stato accettante, vale a dire lo stato iniziale. Forse possono accadere più stati di accettazione, ma poi hanno bisogno di una transizione allo stato iniziale.

\geq

$\geq$

ε

$\varepsilon$

— Raphael,

1

@Raphael, considera ancora L = a * | b *. Un DFA il cui stato iniziale è l'unico stato accettante e che accetta aeb deve accettare (a | b) *.

— Peter Taylor,

Sulla questione della decidibilità, di nuovo: supponiamo di avere un DFA con stati di cui accettano. Supponiamo che accetti una parola e accetti anche , , ..., . Quindi accetta per . (Proof è un'applicazione diretta del principio del buco del piccione). Se è possibile dimostrare che il minimo (minimizzando ) controesempio ( , ) per la circolarità del linguaggio accettato dal DFAE ha lunghezza delimitata da una funzione di , allora il test forza bruta è possibile. Sospetto che

n

$n$

n_{a}

$n_a$

w

$w$

w^{2}

$w^2$

w^{3}

$w^3$

w^{n_{a} + 1}

$w^{n_a+1}$

w^{x}

$w^x$

x > 0

$x > 0$

| w |

$|w|$

w

$w$

x

$x$

n

$n$

| w | <= n + 1

$|w| <= n+1$ , ma non l'ho provato.

— Peter Taylor,

Per dare seguito all'idea di @ Raphael sopra. L'idea di start state = accetta solo state è errata per questo problema, ma acquisisce alcune proprietà interessanti. Quando M è un minDFA, lo stato iniziale è l'unico stato accettato se e solo se L (M) è la stella di Kleene di una lingua priva di prefissi. Questa è una delle mie curiosità preferite di DFA e quindi sono veloce a condividerla! ;)

— mikero,

5

Modifica: una dimostrazione completa (semplificata) della completezza di PSPACE appare sotto.

Due aggiornamenti. In primo luogo, la forma normale descritto nel mio altra risposta appare già in un articolo di Calbrix e Nivat intitolato Prefisso e lingue d'epoca di razionale -langauges $\omega$ in linea, purtroppo non disponibile.

In secondo luogo, decidere se una lingua è circolare dato che il suo DFA è completo per PSPACE.

Circolarità in PSPACE. Poiché NPSPACE = PSPACE dal teorema di Savitch, è sufficiente fornire un algoritmo NPSPACE per la non circolarità. Sia un DFA con stati. Il fatto che il monoide sintattico di abbia dimensione al massimo implica che se non è circolare, allora esiste una parola di lunghezza al massimo tale che ma per alcuni . L'algoritmo indovina e calcola per tutto , usando $A = (Q,\Sigma,\delta,q_0,F)$ $|Q|=n$ $L(A)$ $n^n$ $L(A)$ $w$ $n^n$ $w \in L(A)$ $w^k \notin L(A)$ $k \leq n$ $w$ $\delta_w(q) = \delta(q,w)$ $q \in Q$ $O(n\log n)$ spazio (utilizzato per contare fino a ). Quindi verifica che ma per alcuni . $n^n$ $\delta_w(q_0) \in F$ $\delta_w^{(k)} \notin F$ $k \leq n$

La circolarità è dura per PSPACE. Kozen mostrò nel suo classico documento del 1977 Limiti inferiori per i sistemi di prove naturali che è difficile per PSPACE, dato un elenco di DFA, se l'intersezione delle lingue accettate da loro fosse vuota. Riduciamo questo problema alla circolarità. Dati i DFA binari , troviamo un primo e costruiamo un DFA ternario accetta la lingua (Con qualche sforzo in più, possiamo anche fare binario.) Non è difficile vedere (usando il fatto che è primo) che $A_1,\ldots,A_n$ $p \in [n,2n]$ $A$

L (A) = \bar{{2 w_{1} 2 w_{2} \dots 2 w_{p} : w_{i} \in L (A_{1 + (i \mod n)})}} .

$L(A) = \overline{\{2w_12w_2\cdots2w_p : w_i \in L(A_{1+(i\mod{n})})\}}.$

A

$A$

p

$p$

L (A)

$L(A)$ è circolare se e solo se l'intersezione è vuota.

L (A_{1}) \cap \dots \cap L (A_{n})

$L(A_1) \cap \cdots \cap L(A_n)$

— Yuval Filmus
fonte

0

Ogni di lunghezza può essere scritto come dove , . È ovvio che e . Ne consegue che la lingua è normale per input non vuoti, dal lemma di pompaggio. $s \in L$ $p>0$ $xy^{i}z$ $x = z = \epsilon$ $y = w \neq \epsilon$ $|xy| \leq p$ $|y| = |w| > 0$

Per , la definizione vale, poiché un NDFA che accetta la stringa vuota accetterà anche qualsiasi numero di stringhe vuote. $w= \epsilon$

L'unione delle lingue di cui sopra è la lingua L e poiché le lingue normali sono chiuse sotto unione, ne consegue che ogni lingua circolare è regolare.

Secondo il teorema di Rice, è indecidibile. La prova è simile alla regolarità. $CIRCULARITY/TM$

— chazisop
fonte

1

Il lemma del pompaggio è una condizione necessaria, ma non sufficiente, per la regolarità. In particolare, esistono lingue non regolari che soddisfano le condizioni di pompaggio. Inoltre, il teorema di Rice direbbe che è indecidibile. Ciò non significa che è indecidibile (dove è un DFA, un TM)! Ad esempio, il test di vuoto per DFA è decidibile, mentre non lo è il test di vuoto per TM.

{⟨ M ⟩ | L (M) is circular}

$\{\langle M\rangle\vert L(M)\text{ is circular}\}$

{⟨ D ⟩ | L (D) is circular}

$\{\langle D\rangle\vert L(D)\text{ is circular}\}$

D

$D$

M

$M$

— alpoge

1

Ecco un linguaggio circolare non calcolabile. Sia , dove è un linguaggio non calcolabile (ad esempio codici di arresto delle TM). Quindi è circolare ma chiaramente non calcolabile (un oracolo per può essere usato per decidere ).

D = {0^{x} 1 : x \in R}

$D = \{ 0^x 1 : x \in R\}$

R

$R$

D^{*}

$D^*$

D^{*}

$D^*$

R

$R$

— Yuval Filmus,

2

@Peter, hai letto questa risposta? Stava cercando di dimostrare che qualsiasi linguaggio circolare (senza la condizione di regolarità) è regolare.

— Yuval Filmus,

1

@Yuval, errore mio. @chazisop, il lemma del pompaggio è utile per dimostrare la non regolarità delle lingue, ma non la regolarità. (Inoltre, l'affermazione della tua prima frase si riduce a "Ogni di lunghezza può essere scritto come dove ", che è chiaramente falso).

s \in L

$s \in L$

p > 0

$p > 0$

y^{i}

$y^i$

y \neq ϵ

$y \ne \epsilon$

— Peter Taylor,

1

Sì, utilizzo CIRCOLARITÀ / TM per fare riferimento a questo. CIRCOLARITÀ / DFA è probabilmente decidibile.

— Chazisop,