Conteggio delle parole accettate da una grammatica regolare

26

Data una lingua normale (NFA, DFA, grammatica o regex), come si può contare il numero di parole accettate in una determinata lingua? Entrambi "con esattamente n lettere" e "con al massimo n lettere" sono interessanti.

Margareta Ackerman ha due articoli sull'argomento correlato dell'enumerazione delle parole accettate da un NFA, ma non sono stato in grado di modificarle per contare in modo efficiente.

Sembra che la natura ristretta delle lingue normali dovrebbe rendere il conteggio relativamente semplice: mi aspetto quasi una formula più che un algoritmo Sfortunatamente le mie ricerche finora non hanno prodotto nulla, quindi devo usare termini sbagliati.

— Charles
fonte

Presumo che intendi "numero di parole accettabili di dimensione " o qualcosa del genere? altrimenti, qual è il numero di parole accettate per

n

$n$

Σ^{*}

$\Sigma^*$

— Suresh Venkat,

38

Per un DFA, in cui lo stato iniziale è lo stato , il numero di parole di lunghezza che finiscono nello stato è , dove è la matrice di trasferimento del DFA (una matrice in cui il il numero nella riga e nella colonna è il numero di simboli di input diversi che causano una transizione dallo stato allo stato ). Quindi puoi contare accettando parole di lunghezza esattamente facilmente, anche quando $0$ $k$ $i$ $A^k[0,i]$ $A$ $i$ $j$ $i$ $j$ $k$ $k$ è moderatamente grande, semplicemente calcolando una potenza di matrice e aggiungendo le voci corrispondenti agli stati di accettazione.

La stessa cosa funziona per accettare parole di lunghezza al massimo , con una matrice leggermente diversa. Aggiungi una riga e una colonna aggiuntive della matrice, con una nella cella che sia sia nella riga che nella colonna, una nella nuova riga e la colonna dello stato iniziale e uno zero in tutte le altre celle. L'effetto di questa modifica alla matrice è di aggiungere un altro percorso allo stato iniziale ad ogni potenza. $k$

Questo non funziona per gli NFA. Ho il sospetto che la cosa migliore da fare sia semplicemente convertire in un DFA e quindi applicare l'algoritmo di alimentazione della matrice.

— David Eppstein
fonte

2

La risposta perfetta: ovvia solo dopo averlo letto.

— Charles,

1

Questo approccio ha un'autonomia esponenziale nel caso peggiore se hai input diversi da un DFA. Non è un problema per te, @Charles? Sembri includere espressioni regolari, NFA e grammatiche nelle tue domande e anche chiedere un modo efficiente.

— Raffaello,

17

Let sia una (non deterministico) Automazione finiti con iniziare stato , e . $A = (Q = \{q_1, \dots, q_n\}, \Sigma, \delta, Q_F)$ $q_1$ $Q_F \subseteq Q$ $\delta \subseteq Q\times\Sigma\times Q$

Sia la funzione generatrice per tutte le parole che possono essere accettati partire , che è il ° coefficiente della sua espansione serie . $Q_i(z)$ $q_i$ $n$ $[z^n]Q_i = |\{w \mid |w| = n \wedge w \text{ accepted from } q_i\}|$

Chiaramente:

$Q_i(z) = \left[ q_i \in Q_F \right] + \sum\limits_{(q_i, a, q_j) \in \delta} x \cdot Q_j(z)$

$Q_1$ $[z^n]Q_1$

Questo risale a una tecnica introdotta per le grammatiche da Chomsky e Schützenberger (1963); si trasferisce facilmente su automi finiti.

$\varepsilon$ $x$ $a \in \Sigma$ $w \in \Sigma^k$ $x$ $x^k$

— Raphael
fonte

Apprezzo la nota storica!

— Charles,

1

Ehm, questo è in realtà un metodo che funziona davvero bene (ed è semplice, una volta ottenuto) in molte circostanze. Ad esempio, puoi fare CFG esattamente allo stesso modo.

— Raffaello,

1

Vedo, ho frainteso. In tal caso, se vuoi leggere questo, raccomando Kuich (1970) che ho trovato più accessibile del lavoro di C&S. Lo copre anche in un suo libro che non ricordo.

— Raffaello,

1

n

$n$

1

@joro In caso di grammatiche non ambigue, penso che sia vero, sì.

— Raffaello,

7

Penso che questo sia un problema di conteggio difficile, vedi questo documento: Contare la dimensione delle sequenze regolari di una determinata lunghezza è # P-completo: S. Kannan, Z. Sweedyk e SR Mahaney. Conteggio e generazione casuale di stringhe in lingue regolari. Nel simposio ACM-SIAM sugli algoritmi discreti (SODA), pagine 551–557, 1995.

— Miklós István
fonte

1

Il post sopra presuppone che la lunghezza data sia unaria. Se invece la lunghezza è in binario, il problema è PSPACE-hard. Lo dico sulla base della prova che decidere l'equivalenza di due espressioni regolari è difficile per PSPACE. In quella riduzione, un reg-ex è stato costruito per accettare tutte le stringhe e l'altro per accettare tutte le stringhe che non sono valide rifiutando le storie di calcolo della macchina M PSPACE sull'input w. L'uso di quella seconda espressione regolare e la lunghezza di una cronologia di calcolo di M su w come input per il problema in questione rendono difficile anche questo altro problema di PSPACE.

— Mikhail Rudoy,

3

$\#\mathsf{NC}^1$

— Samid
fonte