Complessità dello spazio per calcolare l'allineamento ottimale della stringa per la distanza di modifica di Levenshtein

12

Se ci vengono date due stringhe di dimensione e , il calcolo standard della distanza di modifica di Levenshtein avviene mediante un algoritmo dinamico con complessità temporale e complessità spaziale . (Alcuni miglioramenti possono essere apportati in funzione della distanza di modifica , ma non ipotizziamo $n_1$ $n_2$ $O(n_1 n_2)$ $O(n_1 n_2)$ $d$ $d$ essendo particolarmente piccolo.) Se ti interessa solo il valore della distanza di modifica (ovvero il numero minimo di modifiche), un noto miglioramento del solito algoritmo (in cui mantieni solo la riga precedente e attuale della tabella di allineamento ) riduce la complessità dello spazio a . $O(\max(n_1, n_2))$

Tuttavia, se si desidera ottenere le modifiche effettive di uno script di modifica ottimale, è possibile fare un uso della memoria migliore di , probabilmente a spese del tempo di esecuzione? $O(n_1 n_2)$

— a3nm
fonte

15

$O(nm)$ $O(n+m)$

Intuitivamente, l'idea di Hirschberg è di calcolare una singola operazione di modifica a metà della sequenza di modifica ottimale, quindi calcolare ricorsivamente le due metà della sequenza. Se pensiamo alla sequenza di modifica ottimale come un percorso da un angolo della tabella di memoization all'altro, abbiamo bisogno di una ricorrenza modificata per registrare dove questo percorso attraversa la riga centrale della tabella. Una ricorrenza che funziona è la seguente:

H a l f (i, j) = {\begin{cases} \infty & if i < m / 2 \\ j & if i = m / 2 \\ H a l f (i - 1, j) & if i > m / 2 and E d i t (i, j) = E d i t (i - 1, j) + 1 \\ H a l f (i, j - 1) & if i > m / 2 and E d i t (i, j) = E d i t (i, j - 1) + 1 \\ H a l f (i - 1, j - 1) & otherwise \end{cases}

$Half(i,j) = \begin{cases} \infty & \text{if $i<m/2$}\\ j & \text{if $i=m/2$}\\ Half(i-1,j) & \text{if $i>m/2$ and $Edit(i,j) = Edit(i-1,j)+1$}\\ Half(i,j-1) & \text{if $i>m/2$ and $Edit(i,j) = Edit(i,j-1)+1$}\\ Half(i-1,j-1) & \text{otherwise} \end{cases}$

I valori di possono essere calcolati contemporaneamente alla tabella delle distanze di modifica , usando time. Poiché ogni riga della tabella di memoization dipende solo dalla riga sopra di essa, calcolare sia che richiede solo $Half(i,j)$ $Edit(i,j)$ $O(mn)$ $Edit(m,n)$ $Half(m,n)$ spazio. $O(m+n)$

inserisci qui la descrizione dell'immagine

$A[1..m]$ $B[1..n]$ $A[1 .. m/2]$ $B[1 .. Half(m, n)]$ $A[m/2 + 1 .. m]$ $B[Half(m, n) + 1 .. n]$

T (m, n) = {\begin{cases} O (n) & if m \leq 1 \\ O (m) & if n \leq 1 \\ O (m n) + max_{h} (T (m / 2, h) + T (m / 2, n - h)) & otherwise \end{cases}

$T(m,n) = \begin{cases} O(n) & \text{if $m\le 1$}\\ O(m) & \text{if $n\le 1$}\\ O(mn) + \max_h \left( T(m/2,h) + T (m/2, n−h)\right) & \text{otherwise} \end{cases}$

T (m, n) = O (m n)

$T(m,n) = O(mn)$

O (m + n)

$O(m+n)$

— Jeffε
fonte

5

Perché mi è mancato questo quando Dan mi ha chiesto il mio esame di qualifica, ecco perché.

— Jeffε,

ricordo di averlo fatto come un esercizio (guidato) e di aver pensato che fosse piuttosto fico

— Sasho Nikolov,

3

$O(n_1 + n_2)$ $O(n_1 + n_2)$ $O(n_1n_2)$ $O(n_1+n_2)$

— Yuval Filmus
fonte