Qual è il principio alla base della convergenza dei metodi del sottospazio di Krylov per risolvere i sistemi lineari di equazioni?


24

A quanto ho capito, ci sono due principali categorie di metodi iterativi per risolvere i sistemi lineari di equazioni:

  1. Metodi stazionari (Jacobi, Gauss-Seidel, SOR, Multigrid)
  2. Metodi di sottospazio di Krylov (gradiente coniugato, GMRES, ecc.)

Comprendo che la maggior parte dei metodi stazionari funziona rilassando ripetutamente (attenuando) le modalità di Fourier dell'errore. A quanto mi risulta, il metodo del gradiente coniugato (metodo sottospazio Krylov) funziona "passo-passo" attraverso un insieme ottimale di direzioni di ricerca di poteri della matrice applicata al ° residuo. Questo principio è comune a tutti i metodi del sottospazio di Krylov? In caso contrario, come caratterizziamo il principio alla base della convergenza dei metodi del sottospazio di Krylov, in generale?n


2
L'analisi dei metodi fissi è distorta da semplici problemi del modello, poiché questi possono essere analizzati in termini di modalità di Fourier. Ignora anche la direzione alternata implicita (ADI) e molti altri metodi. Il punto della maggior parte dei "Metodi stazionari" è quello di combinare molti solutori "parziali approssimativi" in un solutore iterativo. Il punto dei metodi di Krylov è quello di accelerare (o addirittura applicare) la convergenza di una data iterazione lineare stazionaria.
Thomas Klimpel,

4
Un documento che penso sia stato scritto per rispondere alle tue domande è Ipsen e Meyer, L'idea alla base dei metodi di Krylov, Amer. Matematica. Mensile 105 (1998) pagg. 889-899. È un documento meravigliosamente ben scritto e chiarente, disponibile qui .
Andrew T. Barker,

@ AndrewT.Barker: fantastico! Grazie Andrew! :)
Paul

Risposte:


21

In generale, tutti i metodi di Krylov cercano essenzialmente un polinomio che è piccolo quando valutato sullo spettro della matrice. In particolare, il ° residuo di un metodo Krylov (da zero stima iniziale) può essere scritta nella forman

rn=Pn(A)b

dove è un polinomio monico di grado . nPnn

Se è diagonale, con , abbiamoA = V Λ V - 1AA=VΛV1

rnVPn(Λ)V1b=κ(V)Pn(Λ)b.

Nel caso in cui sia normale (es. Simmetrico o unitario) sappiamo che GMRES costruisce un tale polinomio attraverso l'iterazione di Arnoldi, mentre CG costruisce il polinomio usando un diverso prodotto interno (vedi questa risposta per i dettagli ). Allo stesso modo, BiCG costruisce il suo polinomio attraverso il processo Lanczos non simmetrico, mentre l'iterazione di Chebyshev utilizza informazioni preliminari sullo spettro (di solito stime degli autovalori più grandi e più piccoli per matrici simmetriche definite).κ ( V ) = 1.Aκ(V)=1.

Come esempio interessante (motivato da Trefethen + Bau), considera una matrice il cui spettro è questo:

Spettro della matrice

In MATLAB, l'ho costruito con:

A = rand(200,200);
[Q R] = qr(A);
A = (1/2)*Q + eye(200,200);

Se consideriamo GMRES, che costruisce polinomi che minimizzano effettivamente il residuo su tutti i polinomi monici di grado , possiamo facilmente prevedere la storia residua osservando il polinomio candidaton

Pn(z)=(1z)n

che nel nostro caso dà

|Pn(z)|=12n

per nello spettro di .AzA

Ora, se eseguiamo GMRES su un RHS casuale e confrontiamo la storia residua con questo polinomio, dovrebbero essere abbastanza simili (i valori polinomiali candidati sono più piccoli del residuo GMRES perché ):b2>1

Storia residua


Potresti chiarire cosa intendi con "piccolo sullo spettro della matrice"?
Paul

2
Preso come un polinomio complesso, il polinomio ha piccolo modulo in una regione del piano complesso, che comprende lo spettro di . Immagina un diagramma di contorno sovrapposto a un diagramma a dispersione degli autovalori. Quanto è piccolo è piccolo? Dipende dal problema, se è normale e dal lato destroL'idea di base però è che la sequenza di polinomi cerca di diventare progressivamente sempre più piccola sullo spettro in modo che la stima residua nella mia risposta tenda a . A A b . ( P n ) 0PnAAb.(Pn)0
Reid.Atcheson,

@ Reid.Atcheson: Molto ben messo. Potrei raccomandare di scriverecome e menzionando che è uno per le matrici normali? κ ( V )VV1κ(V)
Jack Poulson,

Il Laplaciano precondizionato dal SOR ottimale ha uno spettro molto simile a questa matrice di esempio. Dettagli qui: scicomp.stackexchange.com/a/852/119
Jed Brown

A rigor di termini, CGNE è indipendente dallo spettro poiché dipende solo da valori singolari.
Jed Brown,

17

Sulle norme

Come aggiunta alla risposta di Reid.Atcheson, vorrei chiarire alcune questioni riguardanti le norme. Al iterazione, GMRES trova il polinomio che riduce al minimo il -norm del residuo P n 2nthPn2

rn=Axnb=(Pn(A)1)bb=Pn(A)b.

Supponiamo che sia SPD, quindi induce una norma e anche . PoiAAA1

rnA1=rnTA1rn=(Aen)TA1Aen=enTAen=enA

dove abbiamo usato l'errore

en=xnx=xnA1b=A1rn

Quindi la anomalia dell'errore equivale alla norma del residuo. I gradienti coniugati minimizzano la anomalia dell'errore che lo rende relativamente più accurato nella risoluzione delle modalità a bassa energia. Il -norm del residuo, che GMRES minimizza, è come il -norm dell'errore, e quindi è più debole nel senso che le modalità a bassa energia sono meno ben risolte. Si noti che l' -norm del residuo è essenzialmente privo di valore perché è ancora più debole nelle modalità a bassa energia.AA1A2ATAA

Nitidezza dei limiti di convergenza

Infine, esiste una letteratura interessante sui diversi metodi di Krylov e sulle sottigliezze della convergenza GMRES, in particolare per gli operatori non normali.


Hai lasciato l'ottimo libro di Olavi Nevanlinna: books.google.com/…
Matt Knepley

11

Metodi iterativi in ​​breve:

  1. I metodi fissi sono essenzialmente iterazioni a virgola fissa : per risolvere , scegli una matrice invertibile e trova un punto fisso di Questo converge secondo il teorema del punto fisso di Banach se . I vari metodi corrispondono quindi a una specifica scelta di (ad esempio, per l'iterazione di Jacobi, , dove è una matrice diagonale contenente gli elementi diagonali di ).C x = x + C b - C A x I - C A < 1 C C = D - 1 D AAx=bC

    x=x+CbCAx
    ICA<1CC=D1DA
  2. Krylov Metodi sottospazi sono in essenza metodi di proiezione : Si sceglie sottospazi e cercare un tale che il residuo è ortogonale a . Per i metodi di Krylov, ovviamente è lo spazio attraversato dai poteri di applicati a un residuo iniziale. I vari metodi corrispondono quindi a scelte specifiche di (ad es. per CG e per GMRES).˜ xU b - A ˜ x V U A V V = U V = A UU,VCnx~UbAx~VUAVV=UV=AU

    Le proprietà di convergenza di questi metodi (e dei metodi di proiezione in generale) derivano dal fatto che, grazie alla rispettiva scelta di , le sono ottimali su (ad esempio, minimizzano l'errore nella norma energetica per CG o il residuo per GMRES). Se aumenti la dimensione di in ogni iterazione, sei sicuro (nell'aritmetica esatta) di trovare la soluzione dopo molti passaggi.˜ x U UVx~UU

    Come sottolineato da Reid Atcheson, utilizzando spazi Krylov per permette di dimostrare tassi di convergenza in termini degli autovalori (e quindi il numero di condizionamento) di . Inoltre, sono cruciali per derivare algoritmi efficienti per il calcolo della proiezione .A ˜ xUAx~

    Questo è ben spiegato nel libro di Youcef Saad sui metodi iterativi .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.