Criteri di arresto per i solutori lineari iterativi applicati a sistemi quasi singolari

Considera con quasi singolare, il che significa che esiste un autovalore di che è molto piccolo. Il solito criterio di stop di un metodo iterativo si basa sul residuo e per quanto riguarda le iterazioni possono fermarsi quando con il numero di iterazione. Ma nel caso che stiamo prendendo in considerazione, potrebbe esserci un grande errore vivendo nello spazio di origine associato al piccolo autovalore che fornisce residuo piccolo . Supponiamo che il residuo iniziale sia grande, quindi potrebbe accadere ci fermiamo a $Ax=b$ $A$ $\lambda_0$ $A$ $r_n:=b-Ax_n$ $\|r_n\|/\|r_0\|<tol$ $n$ $v$ $\lambda_0$ $Av=\lambda_0v$ $r_0$ $\|r_n\|/\|r_0\|<tol$ ma l'errore è ancora grande. Qual è un indicatore di errore migliore in questo caso? Èun buon candidato? $x_n-x$ $\|x_{n}-x_{n-1}\|$

linear-algebra

— Hui Zhang
fonte

Potresti pensare alla tua definizione di "quasi singolare". La matrice (con e la matrice identità) ha un autovalore molto piccolo, ma è tutt'altro che singolare come qualsiasi matrice potrebbe essere.

I \cdot ϵ

$I \cdot \epsilon$

ϵ ≪ 1

$\epsilon\ll 1$

I

$I$

— David Ketcheson,

Inoltre,sembra la notazione sbagliata. è più tipico, no?

| | r_{n} / r_{0} | |

$||r_n/r_0||$

| | r_{n} | | / | | r_{0} | |

$||r_n||/||r_0||$

— Bill Barth,

Sì, hai ragione, Bill! Correggerò questo errore.

— Hui Zhang,

Che dire di? e qual è esattamente il tuo algoritmo?

‖ b - A x ‖ / ‖ b ‖

$\| b - Ax \| / \| b \|$

— shuhalo,

Addendum: Penso che il seguente documento risolva praticamente i sistemi mal condizionati di cui ti preoccupi, almeno se stai usando CG: Axelson, Kaporin: Errore nella stima delle norme e arresto dei criteri nelle iterazioni preconfezionate del gradiente coniugato. DOI: 10.1002 / nla.244

— shuhalo,

Risposte:

Si prega di non utilizzare la differenza tra iterate successive per definire un criterio di arresto. Questo non identifica la stagnazione per la convergenza. La maggior parte delle iterazioni di matrice non simmetriche non sono monotone e persino GMRES in esatte aritmetiche senza riavvii può ristagnare per un numero arbitrario di iterazioni (fino alla dimensione della matrice) prima di convergere improvvisamente. Vedi esempi in Nachtigal, Reddy e Trefethen (1993) .

Un modo migliore per definire la convergenza

Di solito siamo interessati all'accuratezza della nostra soluzione più della dimensione del residuo. In particolare, potremmo garantire che la differenza tra una soluzione approssimativa e la soluzione esatta soddisfi per alcuni specificati dall'utente . Si scopre che può raggiungere questo obiettivo trovando un tale che dove è il più piccolo valore singolare di , a causa di $x_n$ $x$

| x_{n} - x | < c

$|x_n - x| < c$

c

$c$

x_{n}

$x_n$

| A x_{n} - b | < c ϵ

$|A x_n - b| < c\epsilon$

ϵ

$\epsilon$

A

$A$

\begin{aligned} | x_{n} - x | & = | A^{- 1} A (x_{n} - x) | \\ \leq \frac{1}{ϵ} | A x_{n} - A x | \\ = \frac{1}{ϵ} | A x_{n} - b | \\ < \frac{1}{ϵ} \cdot c ϵ = c \end{aligned}

$\begin{align} |x_n - x| &= |A^{-1} A (x_n - x)| \\ & \le \frac 1 \epsilon |A x_n - A x| \\ & = \frac 1 \epsilon |A x_n - b| \\ & < \frac 1 \epsilon \cdot c \epsilon = c \end{align}$

dove abbiamo usato che è il più grande valore singolare di (seconda riga) e che risolve esattamente (terza riga). $1/\epsilon$ $A^{-1}$ $x$ $A x = b$

Stima del valore singolare più piccolo $\epsilon$

Una stima accurata del valore singolare più piccolo di solito non è direttamente disponibile dal problema, ma può essere stimata come sottoprodotto di un gradiente coniugato o iterazione GMRES. Si noti che sebbene le stime degli autovalori più grandi e dei valori singolari siano in genere abbastanza buone dopo solo poche iterazioni, una stima accurata del più piccolo autovalore / valore singolare si ottiene di solito solo una volta raggiunta la convergenza. Prima della convergenza, la stima sarà generalmente significativamente più grande del valore reale. Ciò suggerisce che è necessario risolvere effettivamente le equazioni prima di poter definire la tolleranza corretta . Una tolleranza di convergenza automatica che richiede una precisione fornita dall'utente $\epsilon$ $c\epsilon$ $c$ per la soluzione e le stime il più piccolo valore singolare con l'attuale stato del metodo Krylov potrebbe convergere troppo presto perché la stima di era molto più grande del valore reale. $\epsilon$ $\epsilon$

Appunti

La discussione sopra funziona anche con sostituito dall'operatore precondizionato a sinistra e dal residuo precondizionato o con l'operatore precondizionato a destra e l'errore . Se è un buon precondizionatore, l'operatore precondizionato sarà ben condizionato. Per il precondizionamento di sinistra, ciò significa che il residuo precondizionato può essere ridotto, ma il residuo reale potrebbe non esserlo. Per il precondizionamento corretto,viene facilmente ridotto, ma il vero errore $A$ $P^{-1}A$ $P^{-1} (A x^n - b)$ $A P^{-1}$ $P (x_n - x)$ $P^{-1}$ $|P(x_n - x)|$ $|x_n-x|$ potrebbe non essere. Questo spiega perché il precondizionamento di sinistra è migliore per ridurre gli errori mentre il precondizionamento di destra è migliore per ridurre i residui (e per il debug dei precondizionatori instabili).
Vedi questa risposta per ulteriori discussioni sulle norme minimizzate da GMRES e CG.
Le stime dei valori singolari -ksp_monitor_singular_valueestremi possono essere monitorate usando con qualsiasi programma PETSc. Vedi KSPComputeExtremeSingularValues () per calcolare valori singolari dal codice.
Quando si utilizza GMRES per stimare valori singolari, è fondamentale che i riavvii non vengano utilizzati (ad es. -ksp_gmres_restart 1000In PETSc).

— Jed Brown
fonte

'' funziona anche con A sostituito da un operatore precondizionato '' - Tuttavia, si applica solo al residuo precondizionato se si utilizza , resp. all'errore precondizionato se si utilizza .

P^{- 1} r

$P^{-1}r$

P^{- 1} A

$P^{-1}A$

P^{- 1} δ x

$P^{-1}\delta x$

A P^{- 1}

$AP^{-1}$

— Arnold Neumaier,

Buon punto, ho modificato la mia risposta. Nota che il caso precondizionato a destra ti dà il controllo di , svolgendo il precondizionatore (applicando ) in genere amplifica le modalità a basso consumo nell'errore.

P δ x

$P\delta x$

P^{- 1}

$P^{-1}$

— Jed Brown,

Un altro modo di considerare questo problema è quello di considerare gli strumenti da discreti problemi inversi, cioè problemi che implicano la risoluzione di o dove è molto mal condizionato (cioè il rapporto tra il primo e l'ultimo valore singolare è grande). $Ax=b$ $\min ||Ax-b||_2$ $A$ $\sigma_1/\sigma_n$

Qui, abbiamo diversi metodi per scegliere il criterio di arresto, e per un metodo iterativo, consiglierei il criterio della curva a L poiché coinvolge solo quantità già disponibili (NOTA BENE: il mio consulente ha aperto la strada a questo metodo, quindi sono decisamente orientato verso esso). L'ho usato con successo in un metodo iterativo.

L'idea è di monitorare la norma residua e la norma di soluzione , dove è il 'th iterate. Mentre ripetete, questo inizia a disegnare la forma di una L in un diagramma loglog (rho, eta) e il punto all'angolo di quella L è la scelta ottimale. $\rho_k=||Ax_k-b||_2$ $\eta_k=||x_k||_2$ $x_k$ $k$

Ciò ti consente di implementare un criterio in cui tieni d'occhio quando hai superato l'angolo (cioè guardando il gradiente di ), quindi scegli l'iterata che si trovava nell'angolo. $(\rho_k,\eta_k)$

Il modo in cui l'ho fatto ha comportato la memorizzazione degli ultimi 20 iterati e se il gradiente era più grande di qualche soglia per 20 iterazioni successive, sapevo di essere sulla parte verticale della curva e di aver superato l'angolo. Ho quindi preso la prima iterata nel mio array (ovvero le 20 iterazioni fa) come soluzione. $abs(\frac{\log(\eta_k)-\log(\eta_{k-1})}{\log(\rho_k)-\log(\rho_{k-1})})$

Esistono anche metodi più dettagliati per trovare l'angolo, che funzionano meglio ma richiedono la memorizzazione di un numero significativo di iterate. Giocaci un po '. Se sei in MATLAB, puoi usare la casella degli strumenti Strumenti di regolarizzazione, che implementa alcuni di questi (in particolare la funzione "angolo" è applicabile).

Si noti che questo approccio è particolarmente adatto a problemi su larga scala, poiché il tempo di elaborazione aggiuntivo richiesto è minimo.

— OscarB
fonte

Molte grazie! Quindi nel diagramma loglog (rho, eta) iniziamo dalla destra della curva L e finiamo nella parte superiore di L, vero? Semplicemente non conosco il principio alla base di questo criterio. Puoi spiegare perché si comporta sempre come una curva a L e perché scegliamo l'angolo?

— Hui Zhang,

Prego. Per un metodo iterativo, iniziamo da destra e finiamo sempre al top. Si comporta come una L a causa del rumore nel problema - la parte verticale si verifica in , dove è il vettore del rumore . Per ulteriori analisi, consultare Hansen, PC e O'Leary, DP (1993). L'uso della curva a L nella regolarizzazione di problemi discreti e mal posti. SIAM Journal on Scientific Computing, 14. Nota che ho appena fatto un leggero aggiornamento al post.

| | A x - b | |_{2} = | | e | |_{2}

$||Ax-b||_2=||e||_2$

e

$e$

b_{e x a c t} = b + e

$b_{exact}=b+e$

— OscarB,

@HuiZhang: non è sempre una L. Se la regolarizzazione è ambigua può essere una doppia L, che porta a due candidati per la soluzione, uno con impresa grossolana meglio risolto, l'altro con determinati dettagli meglio risolti. (E, naturalmente, possono apparire forme morocomplesse.)

— Arnold Neumaier,

La curva a L si applica ai problemi mal condizionati in cui dovrebbe esserci una soluzione unica? Cioè, sono interessato ai problemi Ax = b dove b è noto "esattamente" e A è quasi singolare ma tecnicamente invertibile. Mi sembrerebbe che se usi qualcosa come GMRES la norma della tua ipotesi attuale di x non cambi troppo nel tempo, specialmente dopo le prime tuttavia molte iterazioni. Mi sembra che la parte verticale della curva a L si verifichi perché non esiste una soluzione unica / valida in un problema mal posto; questa caratteristica verticale sarebbe presente in tutti i problemi mal condizionati?

— nukeguy,

Ad un certo punto, raggiungerai una tale linea verticale, in genere perché gli errori numerici nel metodo della tua soluzione generano || Ax-b || non in calo. Tuttavia, hai ragione nel dire che in tali problemi privi di rumore la curva non sembra sempre una L, il che significa che in genere hai alcuni angoli tra cui scegliere e scegliere uno sopra l'altro può essere difficile. Credo che il documento a cui ho fatto riferimento nel mio commento sopra discuti brevemente scenari senza rumore.

— OscarB,

Criteri di arresto per i solutori lineari iterativi applicati a sistemi quasi singolari

Un modo migliore per definire la convergenza

Stima del valore singolare più piccoloϵϵ\epsilon

Appunti

Stima del valore singolare più piccolo $\epsilon$