Problema di ottimizzazione vincolata nell'entropia della matrice

Ho un problema di ottimizzazione vincolato nell'entropia della matrice (Shannon) . La matrice può essere scritta come la somma delle matrici di rango 1 della forma dove è un dato vettore normalizzato. I coefficienti delle matrici di rango uno sono le incognite in cui ottimizziamo e devono essere maggiori di zero e sommare fino a 1. $\mathtt{(sum(entr(eig(A))))}$ $A$ $[v_i\,v_i^T]$ $v_i$

In una sintassi simile a CVX il problema si presenta come segue: data variabile $\mathtt{c(n)}$

minimizzare S u m (e n t r (e io g (UN)))

$\text{minimize} \qquad \mathtt{sum(entr(eig(A)))}$

\begin{aligned} soggetto a UN & = Σ c_{io} v_{io} v_{io}^{T} \\ Σ c_{io} & = 1 \\ c_{io} & \geq 0 \end{aligned}

$\begin{align} \text{subject to} \qquad A &= \sum c_i v_i v_i^T\\ \sum c_i &= 1\\ c_i &\ge 0\end{align}$ .

Qualcuno ha idea di come risolverlo in modo efficiente? So già che probabilmente non può essere lanciato come un problema di programmazione semi-definita (SDP).

optimization entropy

— Dries
fonte

Modifica: un collega mi ha informato che il mio metodo di seguito è un'istanza del metodo generale nel seguente documento, quando è specializzato nella funzione entropia,

Overton, Michael L. e Robert S. Womersley. "Secondo derivati per l'ottimizzazione degli autovalori delle matrici simmetriche." SIAM Journal on Matrix Analysis and Applications 16.3 (1995): 697-718. http://ftp.cs.nyu.edu/cs/faculty/overton/papers/pdffiles/eighess.pdf

Panoramica

In questo post mostro che il problema dell'ottimizzazione è ben posto e che i vincoli di disuguaglianza sono inattivi alla soluzione, quindi calcolo i derivati Frechet primo e secondo della funzione entropia, quindi propongo il metodo di Newton sul problema con il vincolo di uguaglianza eliminato. Infine, vengono presentati il codice Matlab e i risultati numerici.

Buona posizione del problema di ottimizzazione

In primo luogo, la somma delle matrici definite positive è definita positiva, quindi per , la somma di rango-1 matrici è definita positiva. Se l'insieme di è rango pieno, quindi autovalori di sono positivi, quindi i logaritmi degli autovalori possono essere prese. Pertanto la funzione obiettivo è ben definita all'interno dell'insieme fattibile. $c_i > 0$

UN (c) : = Σ_{io = 1}^{N} c_{io} v_{io} v_{io}^{T}

$A(c):=\sum_{i=1}^N c_i v_i v_i^T$

v_{i}

$v_i$

A

$A$

In secondo luogo, come qualsiasi , perde il rango, quindi l'autovalore più piccolo di va a zero. Vale a dire, come . Poiché la derivata di esplode come , non si può avere una sequenza di punti sempre migliori e migliori che si avvicinano al limite dell'insieme fattibile. Quindi il problema è ben definito e inoltre i vincoli di disuguaglianza $c_i \rightarrow 0$ $A$ $A$ $\sigma_{min}(A(c)) \rightarrow 0$ $c_i \rightarrow 0$ $-\sigma \log(\sigma)$ $\sigma \rightarrow 0$ sono inattivi. $c_i \ge 0$

Derivati di Frechet della funzione entropia

All'interno della regione possibile la funzione entropica è Frechet differenziabile ovunque, e due volte Frechet differenziabile ovunque gli autovalori non vengano ripetuti. Per eseguire il metodo di Newton, dobbiamo calcolare le derivate dell'entropia della matrice, che dipende dagli autovalori della matrice. Ciò richiede la sensibilità al calcolo della decomposizione degli autovalori di una matrice rispetto ai cambiamenti nella matrice.

Ricordiamo che per una matrice con autovalore decomposizione , la derivata della autovalore matrice rispetto alle variazioni nella matrice originale, e la derivata della la matrice dell'autovettore è, dove è il prodotto Hadamard , con la matrice del coefficiente $A$ $A = U \Lambda U^T$

d Λ = io \circ (U^{T} d UN U),

$d\Lambda = I \circ (U^T dA U),$

d U = U C (d UN),

$dU = UC(dA),$

\circ

$\circ$

C = {\begin{cases} \frac{u_{io}^{T} d UN u_{j}}{λ_{j} - λ_{io}}, & io = j \\ 0, & io = j \end{cases}

$C = \begin{cases} \frac{u_i^T dA u_j}{\lambda_j - \lambda_i}, & i=j \\ 0, &i=j \end{cases}$

Tali formule sono derivate differenziando l'equazione degli autovalori e le formule valgono ogni volta che gli autovalori sono distinti. Quando ci sono autovalori ripetuti, la formula per ha una discontinuità rimovibile che può essere estesa fino a quando gli autovettori non unici vengono scelti con cura. Per dettagli al riguardo, consultare la seguente presentazione e il documento . $AU=\Lambda U$ $d\Lambda$

La seconda derivata viene quindi trovata differenziando di nuovo,

\begin{aligned} d^{2} Λ & = d (io \circ (U^{T} d {UN}_{1} U)) \\ = io \circ (d U_{2}^{T} d {UN}_{1} U + U^{T} d {UN}_{1} d U_{2}) \\ = 2 io \circ (d U_{2}^{T} d {UN}_{1} U) . \end{aligned}

$\begin{align} d^2 \Lambda &= d(I \circ (U^T dA_1U)) \\ &= I \circ (dU_2^T dA_1 U + U^T dA_1 dU_2) \\ &= 2 I \circ (dU_2^T dA_1 U). \end{align}$

$d^2 \Lambda$ $dU_2$ $C$ $v_i$

Eliminare il vincolo di uguaglianza

$\sum_{i=1}^N c_i = 1$ $N-1$

c_{N} = 1 - Σ_{io = 1}^{N - 1} c_{io} .

$c_N = 1-\sum_{i=1}^{N-1} c_i.$

$N-1$

d f = d C_{1}^{T} M^{T} [io \circ (V^{T} U B U^{T} V)]

$df = dC_1^T M^T [I \circ (V^T U B U^T V)]$

d d f = d C_{1}^{T} M^{T} [io \circ (V^{T} [2 d U_{2} B_{un'} U^{T} + U B_{B} U^{T}] V)],

$ddf = dC_1^T M^T [I \circ (V^T[2dU_2 B_a U^T + U B_b U^T]V)],$

M = [\begin{matrix} 1 \\ 1 \\ ⋱ \\ 1 \\ - 1 & - 1 & ... & - 1 \end{matrix}],

$M = \begin{bmatrix} 1 & \\ & 1 & \\ &&\ddots& \\ &&&1\\ -1 & -1 & \dots & -1 \end{bmatrix},$

B_{un'} = d io un' g (1 + \log λ_{1}, 1 + \log λ_{2}, ..., 1 + \log λ_{N}),

$B_a = \mathrm{diag}(1+\log \lambda_1, 1 + \log \lambda_2, \ldots, 1 + \log \lambda_N),$

B_{B} = d io un' g (\frac{d_{2} λ_{1}}{λ_{1}}, ..., \frac{d_{2} λ_{N}}{λ_{N}}) .

$B_b = \mathrm{diag}(\frac{d_2\lambda_1}{\lambda_1},\ldots,\frac{d_2\lambda_N}{\lambda_N}).$

Il metodo di Newton dopo aver eliminato il vincolo

Poiché i vincoli di disuguaglianza sono inattivi, iniziamo semplicemente nell'insieme fattibile ed eseguiamo la regione di fiducia o la ricerca di linea inesatta Newton-CG per la convergenza quadratica ai massimi interni.

Il metodo è il seguente, (esclusi i dettagli di ricerca area di fiducia / linea)

$\tilde{c} = [1/N,1/N,\ldots,1/N]$
$c = [\tilde{c},1 - \sum_{i=1}^{N-1} c_i]$
$A = \sum_i c_i v_i v_i^T$
$U$ $\Lambda$ $A$
$G = M^T [I \circ (V^T U B U^T V)]$
$H G = p$ $p$ $H$ $H$ $\delta \tilde{c}$ $dU_2$ $B_a$ $B_b$ $M^{T} [io \circ (V^{T} [2 d U_{2} B_{un'} U^{T} + U B_{B} U^{T}] V)]$ $M^T [I \circ (V^T[2dU_2 B_a U^T + U B_b U^T]V)]$
$\tilde{c} \leftarrow \tilde{c} - p$
Vai a 2.

risultati

$v_i$ $N=100$ $v_i$

>> N = 100;
>> V = randn (N, N);
>> per k = 1: NV (:, k) = V (:, k) / norma (V (:, k)); fine
>> maxEntropyMatrix (V);
Iterazione di Newton = 1, norma (grad f) = 0.67748
Iterazione di Newton = 2, norma (grad f) = 0,03644
Iterazione di Newton = 3, norma (grad f) = 0,0012167
Iterazione di Newton = 4, norma (grad f) = 1.3239e-06
Iterazione di Newton = 5, norma (grad f) = 7.7114e-13

Per vedere che il punto ottimale calcolato è in realtà il massimo, ecco un grafico di come l'entropia cambia quando il punto ottimale viene perturbato in modo casuale. Tutte le perturbazioni fanno diminuire l'entropia. inserisci qui la descrizione dell'immagine

Codice Matlab

Funzione All in 1 per ridurre al minimo l'entropia (appena aggiunta a questo post): https://github.com/NickAlger/various_scripts/blob/master/maxEntropyMatrix.m

— Nick Alger
fonte

Grazie mille! L'ho risolto con semplice con l'ascent gradiente me stesso, ma questo è probabilmente più affidabile. Il fatto che v debba essere di rango completo nel file matlab è l'unica cosa che mi disturba.

— Asciuga il

@NickAlger Il link fornito non funziona, posso chiederti di dare un'occhiata?

— Creatore

@Creator link aggiornato in post! github.com/NickAlger/various_scripts/blob/master/…

— Nick Alger,

@NickAlger Esiste un vincolo sulla matrice che l'algoritmo può operare? Questo algoritmo va bene per la matrice con elementi complessi? Nel mio caso l'SVD fallisce dopo qualche tempo poiché la matrice ha Nan.

— Creatore

Non penso che numeri complessi debbano essere un problema. Una limitazione del metodo è che la soluzione ottimale non può avere autovalori ripetuti, che suppongo sia ciò che sta accadendo qui. In questo caso il metodo converge in qualcosa che si divide per zero nell'equazione C. Puoi provare a disturbare un po 'in modo casuale gli ingressi e vedere se questo aiuta le cose. C'è un modo per aggirare questo problema nel documento di Overton sopra citato, ma il mio codice non è così avanzato.

— Nick Alger,