Perché non è semplice contare il numero di parole in una lingua normale?

8

Dato un DFA, A, sia L (A) a indicare il numero di parole che A accetta. Penso che sia facile calcolare L (A): tradurre la codifica di A in un'espressione regolare. Se la stella di Kleene appare ovunque nell'espressione, la lingua è infinita. Altrimenti: scorrere e contare tutte le combinazioni di parole che è possibile creare utilizzando l'espressione (in pratica se sull'espressione è presente un operatore +, moltiplicare la quantità di parole legali per la quantità di stringhe collegate dal + ..)

È sbagliato? Grazie in anticipo

regular-languages automata regular-expressions

— user67573
fonte

3

ε^{*}

$\varepsilon^*$ non è un linguaggio infinito.

— David Richerby,

cstheory.stackexchange.com/q/8200/5038

— DW

12

Sì, questo è sbagliato, a causa dell'ambiguità.

Considera la seguente lingua: $(a + aa) + a(a + \epsilon)$ .

Con il tuo metodo, vediamo 4 parole, $a, aa, aa, a$ . Ma abbiamo duplicati! Esistono diversi modi per creare la stessa parola nell'espressione regolare data.

Un metodo migliore è utilizzare la programmazione dinamica su un DFA minimo per la tua lingua, senza stati "morti". Se il DFA minimo è ciclico, la lingua è infta, quindi possiamo supporre che non ci siano cicli. L'uso di un DFA è la chiave, perché il determinismo significa che esiste esattamente un percorso attraverso il DFA per ogni parola.

Quello che fai è creare una ricorrenza per il numero di parole che terminano in un determinato stato:

1 parole termina allo stato iniziale: $\epsilon$
Per ogni stato $q$ , il numero di parole che terminano lì è la somma del numero di parole che terminano in ogni stato con una transizione in $q$ .

Il numero totale di parole è quindi la somma del numero di parole che terminano in ogni stato finale.

— jmite
fonte

2

Vale la pena notare che queste ricorrenze possono sempre essere risolte dall'algebra del computer, ad esempio per le funzioni di generazione. Quindi sì, il linguaggio normale è in realtà facile da contare.

— Raffaello

9

A complemento della risposta di jmite, non è troppo difficile calcolare il numero di parole in una lingua normale, usando il metodo "matrice di trasferimento". Questo è lo stesso della programmazione dinamica di jmite, ma la tecnica ha ulteriori applicazioni come l'enumerazione asintotica.

Dato un DFA, costruisci a $Q\times Q$ matrice $M$ (dove $Q$ è l'insieme di stati) in cui $M(i,j)$ è il numero di lettere che causano lo spostamento di DFA dallo stato $j$ dichiarare $i$ . Permettere $1_{q_0}$ e $1_F$ essere gli indicatori per lo stato iniziale e per gli stati accettanti, rispettivamente. Infine, lascia $n = |Q|$ .

Il numero di parole di lunghezza $m$ è $c_m := 1_F M^m 1_{q_0}$ . Calcolare $c_m$ per $0 \leq m < 2n$ . Se $c_n + \cdots + c_{2n-1} > 0$ quindi la lingua accettata dal DFA è infinita. Altrimenti, il numero di parole nella lingua è $c_0 + \cdots + c_{n-1}$ .

(Quando si calcola la potenza di $M$ , è necessario prestare attenzione alla grandezza delle voci, che è esponenziale in $m$ . Poiché la loro dimensione è solo polinomiale, l'algoritmo risultante viene eseguito in un tempo polinomiale.)

— Yuval Filmus
fonte

2

Adoro questo approccio. Ho anche scoperto che calcolare gli autovalori di

M

$M$ in realtà corrispondono alle radici del denominatore nell'approccio della funzione generatrice e che, forse non sorprende, questi autovalori sono invarianti alla minimizzazione di DFA. Tuttavia, non ho assolutamente idea di come interpretarlo correttamente.

— Lee

1

Ciò non è così sorprendente, dato che lo è la funzione generatrice

P (z) = \sum_{n = 0}^{\infty} 1_{F} M^{n} 1_{q_{0}} z^{n}

$P(z) = \sum_{n=0}^\infty 1_F M^n 1_{q_0} z^n$ , che semplifica

P (z) = 1_{F} (I - z M)^{- 1} 1_{q_{0}}

$P(z) = 1_F (I-zM)^{-1} 1_{q_0}$ . È possibile ottenere un risultato ancora più esplicito ripetendo questo calcolo utilizzando la forma Jordan

M

$M$ , che presenta gli autovalori.

— Yuval Filmus,

7

In realtà, puoi ancora derivare formule di conteggio per espressioni regolari non ambigue con stelle di Kleene all'interno.

Data la definizione induttiva di un'espressione regolare come:

e \in R e := x \in Σ ∣ e_{0} e_{1} ∣ e_{0} + e_{1} ∣ e^{*}

$\begin{equation*} e \in \mathrm{Re} := x \in \Sigma \mid e_0 ~ e_1 \mid e_0 + e_1 \mid e^* \end{equation*}$

Considera la seguente traduzione $[\![\cdot]\!] : \mathrm{Re} \to \mathbb{C}(z)$ che prende un'espressione regolare e la traduce in una funzione razionale dal valore complesso:

\begin{aligned} [[x \in Σ]] & = z \\ [[e_{0} e_{1}]] & = [[e_{0}]] \times [[e_{1}]] \\ [[e_{0} + e_{1}]] & = [[e_{0}]] + [[e_{1}]] \\ [[e^{*}]] & = \frac{1}{1 - [[e]]} \end{aligned}

$\begin{align*} [\![x \in \Sigma]\!] &= z \\ [\![e_0 ~ e_1]\!] &= [\![e_0]\!] \times [\![e_1]\!]\\ [\![e_0 + e_1]\!] &= [\![e_0]\!] + [\![e_1]\!]\\ [\![e^*]\!] &= \frac{1}{1 - [\![e]\!]} \end{align*}$

Possiamo dimostrare che questa traduzione restituisce un'espressione razionale facendo induzione strutturale $e$ e notando che tutte le operazioni utilizzate sul lato destro preservano la razionalità.

Supponiamo che l'espressione regolare $e$ che abbiamo inserito non è ambiguo, quindi troveremmo che la funzione razionale è indicata da $[\![e]\!] \in \mathbb{C}(z)$ è in realtà la funzione generatrice della famiglia di parole accettate dalla lingua sottostante $e$ , classificati in base alla loro lunghezza.

Ad esempio, considera la lingua $(a^*b)^*$ , che definisce il linguaggio delle corse di $a$ delimitato da $b$ . Ora, questa espressione regolare è inequivocabile, quindi possiamo eseguire il nostro trucco di traduzione:

\begin{aligned} [[(a^{*} b)^{*}]] & = \frac{1}{1 - [[a^{*} b]]} \\ = \frac{1}{1 - ([[a^{*}]] \times [[b]])} \\ = \frac{1}{1 - (\frac{1}{1 - [[a]]} \times z)} \\ = \frac{1}{1 - \frac{z}{1 - z}} \\ = \frac{1}{2} + \frac{1}{2 - 4 z} \end{aligned}

$\begin{align*} [\![(a^*b)^*]\!] &= \frac{1}{1 - [\![a^*b]\!]} \\ &= \frac{1}{1 - ([\![a^*]\!] \times [\![b]\!])} \\ &= \frac{1}{1 - \left(\frac{1}{1 - [[a]]} \times z\right)} \\ &= \frac{1}{1 - \frac{z}{1 - z}} \\ &= \frac{1}{2} + \frac{1}{2 - 4 z} \end{align*}$

A quanto pare, data la precedente funzione generatrice, sarà l'estrazione del suo coefficiente

[z^{n}] [[(a^{*} b)^{*}]] = 2^{n - 1} + \frac{δ (n)}{2}

$[z^n][\![(a^*b)^*]\!] = 2^{n - 1} + \frac{\delta\left(n\right)}{2}$ dove

δ (n) = {\begin{cases} 1 & if n = 0 \\ 0 & otherwise \end{cases}

$\delta(n) = \begin{cases} 1 & \text{if } n = 0 \\ 0 & \text{otherwise} \end{cases}$

In effetti, dalla nostra traduzione $[\![\cdot]\!]$ genera funzioni razionali, possiamo usare una decomposizione parziale della frazione per creare una formula di enumerazione per qualsiasi espressione regolare non ambigua.

Supponiamo di avere una funzione razionale irriducibile

r (z) + \frac{p (z)}{q (z)}

$r(z) + \frac{p(z)}{q(z)}$ dove

r, p, q

$r, p, q$ sono polinomi, quindi puoi scomporlo in

r (z) + \frac{C_{0}}{z - q_{0}^{*}} + \dots + \frac{C_{n}}{z - q_{n}^{*}}

$r(z) + \frac{C_0}{z - q^*_0} + \dots + \frac{C_n}{z - q^*_n}$ dove

q_{k}^{*}

$q^*_k$ sono le radici di

q (z)

$q(z)$ . Esistono alcuni casi angolari tecnici (come la molteplicità delle radici, ecc.), Ma è relativamente facile eseguire l'estrazione dei coefficienti sull'espressione sopra:

[z^{n}] \frac{C}{z - q^{*}} = C \times {q^{*}}^{- n}

$[z^n] \frac{C}{z - q^*} = C \times {q^*}^{-n}$

In effetti, la decomposizione della frazione parziale si generalizza in funzioni razionali multivariate, quindi puoi effettivamente costruire formule di conteggio per query come "Quante parole ci sono dove ci sono $n$ as e $m$ bS?"

Sfortunatamente, la misura in cui questo metodo sarà utile termina quando hai un'espressione ambigua.

— sottovento
fonte