Moltiplicazione e esponenziazione della catena di matrici

Se ho due matrici e , rispettivamente di dimensioni e , e voglio calcolare , è più efficiente riscrivere prima l'espressione come e solo allora valutare numericamente, perché è di dimensione ma è di dimensione . $A$ $B$ $1000\times2$ $2\times1000$ $(AB)^{5000}$ $A(BA)^{4999}B$ $AB$ $1000\times1000$ $BA$ $2\times2$

Voglio risolvere una versione generalizzata di questo problema. Esiste un algoritmo ragionevolmente efficiente (non forza bruta) per ottimizzare un'espressione contenente:

Variabili di matrice libere di dimensioni note
Prodotti di sottoespressioni arbitrarie
Sottoespressioni arbitrarie elevate al potere naturale

... in modo che ci voglia la minima quantità di lavoro per valutare numericamente, dopo aver sostituito le variabili di matrice libera con valori di matrice concreti?

Il problema di moltiplicazione della catena di matrici è un caso speciale del mio problema.

Modificare:

Questa è una risposta provvisoria. Mi sembra intuitivamente giusto, ma non ho prove che sia corretto. Se risulta corretto, sono ancora interessato alla prova. (Se non è corretto, ovviamente, per favore correggimi.)

Per ogni prodotto elevato a una potenza, diciamo, , considera ogni permutazione ciclica dei fattori: $(A_1 A_2 \ldots A_k)^n$

$(A_1 A_2 \ldots A_k)^n$
$A_1 (A_2 \ldots A_k A_1)^{n-1} A_2 \ldots A_k$
$A_1 A_2 (A_3 \ldots A_k A_1 A_2)^{n-1} A_3 \ldots A_k$
...
$A_1 A_2 \ldots A_{k-1} (A_k A_1 A_2 \ldots A_{k-1})^{n-1} A_k$

... ricorsivamente. Ciascuna potenza deve essere calcolata usando l'espiazione mediante quadratura (ovviamente) e tutti gli altri prodotti devono essere calcolati usando l'ordine ottimale restituito dall'algoritmo di moltiplicazione della catena di matrici.

Modificare:

L'idea delineata nella mia modifica precedente è ancora in qualche modo non ottimale. L'algoritmo di esponenziazione mediante quadratura in realtà valuta le espressioni della forma o , dove non è necessariamente la matrice dell'identità. Ma il mio algoritmo non considera la possibilità di usare l'esponenziazione quadrando l'algoritmo con non uguale alla matrice identità. $K A^n$ $A^n K$ $K$ $K$

optimization dynamic-programming linear-algebra

— Pyon
fonte

@ gnasher729: mi dispiace, avrei dovuto essere più esplicito. Non voglio forzare tutte le possibilità, per la stessa ragione per cui non vorresti risolvere la moltiplicazione della catena di matrici per forza bruta. Ho appena modificato la domanda di conseguenza.

— pyon

A (B A)^{4999} B

$A(BA)^{4999}B$

A (B A)^{2 * (2 * 1249 + 1) + 1} B

$A(BA)^{2*(2*1249+1)+1}B$

A (B A)^{n - 1} B

$A(BA)^{n-1}B$

A B (A B)^{n - 2} A B

$AB(AB)^{n-2}AB$

A B A (B A)^{n - 3} B A B

$ABA(BA)^{n-3}BAB$

Cambiamo la base in vettore di Eigen per l'esponiazione della matrice e quando tutta la matrice ha potenza 1, allora possiamo usare la moltiplicazione della catena della matrice.

— Deep Joshi,

n \times n

$n \times n$

n

$n$

Risposte:

Disclaimer: il seguente metodo non è stato rigorosamente dimostrato di essere ottimale. Viene fornita una prova informale.

Il problema si riduce a trovare l'ordinamento più efficiente quando si considera il quadrato del prodotto.

$(ABC)^{50}$ $(ABC)^2$ $ABCABC$ $ABC$

$ABCABC$

$A(B(CA))BC$ $A(B(CA))^{49}BC$

$(A_1 A_2 \cdots A_n)^m$ $(A_1 A_2 \cdots A_n)^2$
$(A_1 A_2 \cdots A_n)^2$
$G$ $A_1 \cdot A_2 \cdot G^{m-1} \cdot A_n$

$(AB)^n$ $A$ $B$ $X \times Y$ $Y \times X$ $A$ $B$

$X \times Y$
$Y \times X$
$Y \times Y$
$X \times X$

$X < Y$ $Y ≤ X$

$X < Y$
$AB$ $X \times X$ $A$ $B$ $(AB)^n$

$Y ≤ X$
$BA$ $Y \times Y$ $A$ $B$ $A(BA)^{n-1}B$

$ABAB$

Utilizzando più matrici, l'argomento è simile. Forse è possibile una prova induttiva? L'idea generale è che la risoluzione dell'MCM per il quadrato troverà la dimensione ottimale per le operazioni con tutte le matrici coinvolte considerate.

Argomento di studio:

julia> a=rand(1000,2);
julia> b=rand(2,1000);
julia> c=rand(1000,100);
julia> d=rand(100,1000);
julia> e=rand(1000,1000);

julia> @time (a*b*c*d*e)^30;
  0.395549 seconds (26 allocations: 77.058 MB, 1.58% gc time)

# Here I use an MCM solver to find out the optimal ordering for the square problem
julia> Using MatrixChainMultiply
julia> matrixchainmultiply("SOLVE_SQUARED", a,b,c,d,e,a,b,c,d,e)
Operation: SOLVE_SQUARED(A...) = begin  # none, line 1:
    A[1] * (((((A[2] * A[3]) * (A[4] * (A[5] * A[6]))) * (A[7] * A[8])) * A[9]) * A[10])
  end
Cost: 6800800

# Use the ordering found, note that exponentiation is applied to the group of 5 elements
julia> @time a*(((((b*c)*(d*(e*a)))^29*(b*c))*d)*e);
  0.009990 seconds (21 allocations: 7.684 MB)

# I also tried using the MCM for solving the problem directly
julia> @time matrixchainmultiply([30 instances of a,b,c,d,e]);
  0.094490 seconds (4.02 k allocations: 9.073 MB)

— matteyas
fonte

(A B C)^{2}

$(ABC)^2$

A B C A B C

$ABCABC$

(A B C)^{n}

$(ABC)^n$

(A B C)^{n}

$(ABC)^n$

A (B C A)^{n - 1} B C

$A(BCA)^{n-1}BC$

A B (C A B)^{n - 1} C

$AB(CAB)^{n-1}C$

@DavidRicherby è la prova informale aggiunta di qualsiasi uso?

— matteyas,

@matteyas: Questo è più o meno quello che ho detto nella prima modifica alla mia domanda, giusto?

— pyon,

A B C A B C

$ABCABC$

-1

$A_1$ $A_n$ $A_i$ $A_j$ $O (n^3)$

— gnasher729
fonte

Questo non tiene conto delle sottoespressioni che sono portate ad un potere (se il potere è grande questo potrebbe essere molto inefficiente), e non tiene conto dell'opportunità di usare l'espiazione rapida per ottenere accelerazioni migliori , quindi sospetto che non è ancora una risposta ottimale.

— DW