Perché le matrici simmetriche positive definite (SPD) sono così importanti?


20

Conosco la definizione di matrice simmetrica positiva definita (SPD), ma voglio capire di più.

Perché sono così importanti, intuitivamente?

Ecco quello che so. Cos'altro?

  • Per un dato dato, la matrice di varianza è SPD. La matrice di varianza è una metrica importante, vedi questo eccellente post per una spiegazione intuitiva.

  • La forma quadratica 12XUNX-BX+cè convesso, seUNè SPD. La convessità è una proprietà piacevole per una funzione che può assicurarsi che la soluzione locale sia globale. Per i problemi Convex, ci sono molti buoni algoritmi da risolvere, ma non per problemi non convessi.

  • Quando UN è SPD, la soluzione di ottimizzazione per la forma quadratica

    minimizzare   12XUNX-BX+c
    e la soluzione per il sistema lineare
    UNX=B
    sono uguali. Quindi possiamo eseguire conversioni tra due problemi classici. Questo è importante perché ci consente di usare i trucchi scoperti in un dominio nell'altro. Ad esempio, possiamo usare il metodo del gradiente coniugato per risolvere un sistema lineare.
  • Esistono molti buoni algoritmi (veloci, stabili numerici) che funzionano meglio per una matrice SPD, come la decomposizione di Cholesky.

EDIT: Non sto cercando di chiedere le identità per la matrice SPD, ma l'intuizione dietro la proprietà per mostrare l'importanza. Ad esempio, come menzionato da @Matthew Drury, se una matrice è SPD, gli autovalori sono tutti numeri reali positivi, ma perché tutti i fattori positivi contano. @Matthew Drury ha avuto un'ottima risposta al flusso ed è quello che stavo cercando.


7
Gli autovalori sono tutti numeri reali positivi. Questo fatto è alla base di molti altri.
Matthew Drury,

4
Per andare un po 'oltre rispetto a @Matthew: se scegli una base adatta, tutte queste matrici sono uguali e sono uguali alla matrice identità. In altre parole, esiste esattamente una forma quadratica definita positiva in ogni dimensione (per gli spazi vettoriali reali) ed è uguale alla distanza euclidea.
whuber

2
Troverai qualche intuizione nei molti modi elementari di mostrare gli autovalori di una matrice simmetrica reale sono tutti reali: mathoverflow.net/questions/118626/… In particolare, la forma quadratica si trova naturalmente nel quoziente di Rayleigh, e le matrici simmetriche forniscono un modo naturale di esibire una grande famiglia di matrici i cui autovalori sono reali. Vedi il teorema di Courant minimax ad esempio: en.wikipedia.org/wiki/Courant_minimax_principleXTUNX
Alex R.

4
Questo sembra eccessivamente ampio; se non avesse già avuto tre risposte, probabilmente l'avrei chiuso su quella base. Per favore, offri maggiori indicazioni su ciò che vuoi specificamente sapere (chiedere l'intuizione è troppo personale / individuale perché le persone possano indovinarlo in un caso come questo)
Glen_b -Reinstate Monica

1
Sto avendo difficoltà a trovare una situazione nelle statistiche che darebbe origine a una matrice che non è psd (a meno che tu non abbia rovinato il calcolo di una matrice di correlazione, ad esempio riempiendola con una correlazione a coppie calcolata su dati con valori mancanti) . Qualsiasi matrice quadrata simmetrica a cui riesco a pensare è o una covarianza, un'informazione o una matrice di proiezione. (Altrove nella matematica applicata, le matrici non psd possono essere una norma culturale, ad esempio le matrici ad elementi finiti in PDE, diciamo.)
StasK

Risposte:


15

Una matrice (reale) simmetrica ha un set completo di autovettori ortogonali per i quali gli autovalori corrispondenti sono tutti numeri reali. Per matrici non simmetriche questo può fallire. Ad esempio, una rotazione nello spazio bidimensionale non ha autovettori o autovalori nei numeri reali, è necessario passare a uno spazio vettoriale sopra i numeri complessi per trovarli.

Se la matrice è inoltre definita positiva positiva, questi autovalori sono tutti numeri reali positivi. Questo fatto è molto più semplice del primo, poiché se è un autovettore con lunghezza unitaria e λ l'autovalore corrispondente, quindivλ

λ=λvtv=vtUNv>0

dove l'ultima uguaglianza usa la definizione di definitività positiva.

L'importanza qui per l'intuizione è che gli autovettori e gli autovalori di una trasformazione lineare descrivono il sistema di coordinate in cui la trasformazione è più facilmente comprensibile. Una trasformazione lineare può essere molto difficile da comprendere in una base "naturale" come il sistema di coordinate standard, ma ognuna ha una base "preferita" di autovettori in cui la trasformazione funge da ridimensionamento in tutte le direzioni. Questo rende la geometria della trasformazione molto più facile da capire.

Ad esempio, il secondo test derivativo per gli estremi locali di una funzione viene spesso dato come una serie di condizioni misteriose che coinvolgono un'entrata nella seconda matrice derivativa e alcuni determinanti. In effetti, queste condizioni codificano semplicemente la seguente osservazione geometrica:R2R

  • Se la matrice dei secondi derivati ​​è definita positiva, sei al minimo locale.
  • Se la matrice delle seconde derivate è definita negativa, sei al massimo locale.
  • Altrimenti, non sei in nessuno dei due punti di sella.

Puoi comprenderlo con il ragionamento geometrico sopra riportato in una autofisica. La prima derivata in un punto critico scompare, quindi i tassi di cambiamento della funzione qui sono controllati dalla seconda derivata. Ora possiamo ragionare geometricamente

  • Nel primo caso ci sono due direzioni eigen e se ci si sposta lungo la funzione aumenta.
  • Nel secondo, due direzioni di autovettura e se ci si sposta in una delle due funzioni, la funzione diminuisce.
  • Nell'ultimo, ci sono due direzioni degli automi, ma in uno di essi la funzione aumenta e nell'altro diminuisce.

Poiché gli autovettori si estendono su tutto lo spazio, qualsiasi altra direzione è una combinazione lineare di direzioni di autovenienti, quindi le velocità di variazione in quelle direzioni sono combinazioni lineari delle velocità di variazione nelle direzioni di autigine. Quindi, in effetti, ciò vale in tutte le direzioni (questo è più o meno ciò che significa che una funzione definita su uno spazio dimensionale superiore è differenziabile). Ora, se disegni una piccola immagine nella tua testa, questo ha molto senso da qualcosa che è abbastanza misterioso nei testi di calcolo per principianti.

Questo si applica direttamente a uno dei tuoi punti elenco

La forma quadratica è convesso, seAè SPD. Convex è una bella proprietà che può assicurarsi che la soluzione locale sia globale12XUNX-BX+cUN

La matrice dei secondi derivati ​​è ovunque, che è simmetrica positiva definita. Dal punto di vista geometrico, ciò significa che se ci allontaniamo in qualsiasi direzione degli automi (e quindi in qualsiasi direzione, perché qualsiasi altra è una combinazione lineare di direzioni degli autoveni) la funzione stessa si piegherà al di sopra del suo piano tangente. Ciò significa che l'intera superficie è convessa.UN


5
Un modo grafico di vederlo: se è SPD, i contorni della forma quadratica associata sono ellissoidali. UN
JM non è uno statistico il

7
Quella caratterizzazione di @JM è molto percettiva. Nel caso in cui qualcuno si stia chiedendo cosa potrebbe essere speciale sui contorni ellissoidali, nota che sono solo sfere perfette sotto mentite spoglie: le unità di misura possono differire lungo i loro assi principali e gli ellissoidi potrebbero essere ruotati rispetto alle coordinate in cui sono descritti i dati , ma per molti scopi - specialmente quelli concettuali - quelle differenze sono insignificanti.
whuber

Questo è legato al mio modo di comprendere geometricamente il metodo di Newton. Meglio approssimare il livello corrente impostato con un ellissoide, quindi prendere un sistema di coordinate in cui l'ellissoide è un cerchio, spostarsi ortogonalmente al cerchio in quel sistema di coordinate.
Matthew Drury,

1
Se ci sono vincoli (attivi), è necessario proiettare nel giacobino dei vincoli attivi prima di eseguire l'autovalore e l'autovelox. Se l'Assia è psd, la (qualsiasi) proiezione sarà psd, ma il contrario non è necessariamente vero, e spesso non lo è. Vedi la mia risposta
Mark L. Stone,

10

Troverai alcune intuizioni nei molti modi elementari di mostrare gli autovalori di una matrice simmetrica reale sono tutti reali: /mathpro/118626/real-symmetric-matrix-has-real-eigenvalues-elementary- proof / 118640 # 118640

In particolare, la forma quadratica si trova naturalmente nel quoziente di Rayleigh e le matrici simmetriche forniscono quello che è probabilmente il modo più naturale di esibire una grande famiglia di matrici i cui autovalori sono reali. Vedi il teorema di Courant minimax ad esempio: https://en.wikipedia.org/wiki/Courant_minimax_principleXTUNX

Inoltre simmetriche, matrici definite rigorosamente positivi sono l'unico set di matrici che possono definire un prodotto interno non banale, insieme ad una norma indotta: . Questo perché per definizione per vettori reali x , y d ( x , y ) = d ( y , x ) per tutti x , yd(x,y)=x,Ay=xTAyx,y d(x,y)=d(y,X)X,y e per x 0 . In questo modo, le matrici definite positive simmetriche possono essere viste come candidati ideali per trasformazioni di coordinate.X2=XTUNX>0x0

Quest'ultima proprietà è assolutamente fondamentale nell'area delle macchine vettoriali di supporto, in particolare i metodi del kernel e il trucco del kernel , in cui il kernel deve essere simmetrico positivo per indurre il giusto prodotto interno. In effetti il teorema di Mercer generalizza le proprietà intuitive delle matrici simmetriche negli spazi funzionali.


9

Per quanto riguarda l'ottimizzazione (poiché hai taggato la tua domanda con il tag di ottimizzazione), le matrici SPD sono estremamente importanti per un semplice motivo: un hessiano SPD garantisce che la direzione di ricerca è una direzione di discesa. Considera la derivazione del metodo di Newton per l'ottimizzazione senza limiti. Innanzitutto, formiamo l'espansione di Taylor di f(x+Δx) :

f(x+Δx)f(x)+ΔxTf(x)+12ΔxT2f(x)Δx

Successivamente, prendiamo la derivata rispetto a :Δx

f(x+Δx)f(x)+2f(x)Δx

Infine, imposta la derivata uguale a 0 e risolvi per Δx :

Δx=2f(x)1f(x)

Supponendo è SPD, è facile vedere che Δ x2f(x)Δx è una direzione di discesa perché:

f(x)TΔx=f(x)T2f(x)1f(x)<0

Quando si utilizza il metodo di Newton, le matrici hessiane non SPD vengono in genere "spostate" per essere SPD. Esiste un algoritmo pulito chiamato Cholesky modificato che rileverà un'Assia non SPD, "spingerà" nella direzione giusta e fattorizzerà il risultato, il tutto per (essenzialmente) lo stesso costo di una fattorizzazione Cholesky. I metodi Quasi-Newton evitano questo problema costringendo l'Assia approssimativa ad essere SPD.

A parte questo, i sistemi simmetrici indefiniti stanno ricevendo molta attenzione in questi giorni. Vengono fuori nel contesto di metodi di punti interni per l'ottimizzazione vincolata.


Grazie mille per un'ottima risposta. Capisco la direzione decente è importante nel metodo di ricerca in linea. Nei metodi della regione di fiducia, è importante anche una direzione decente?
Haitao Du

1
È ancora importante per i metodi della regione di fiducia. I metodi della regione di fiducia funzionano fondamentalmente limitando la dimensione del passo PRIMA e quindi risolvendo la direzione del passo. Se il passaggio non raggiunge la riduzione desiderata del valore della funzione obiettivo, si riduce il limite sulla dimensione del passaggio e si ricomincia. Immagina che il tuo algoritmo per generare la direzione del passo non garantisca che la direzione del passo sia una direzione di discesa. Anche se il raggio dell'area di attendibilità va a 0, non è mai possibile generare un passo accettabile (anche se ne esiste uno) perché nessuna delle direzioni del passo sono direzioni di discesa.
Bill Woessner,

I metodi di ricerca in linea mostrano sostanzialmente lo stesso comportamento. Se la direzione di ricerca non è una direzione di discesa, l'algoritmo di ricerca della linea potrebbe non trovare mai una lunghezza graduale accettabile, perché non ce n'è una. :-)
Bill Woessner,

Ottima risposta, grazie per avermi aiutato a collegare i pezzi.
Haitao Du

9

Geometricamente, una matrice definita positiva definisce una metrica , ad esempio una metrica riemanniana, in modo da poter usare immediatamente concetti geometrici.

XyUN

d(X,y)=(X-y)TUN(X-y)

Rn

X,y=XTUNy
UNRn


1
UN=io

6

Esistono già diverse risposte che spiegano perché le matrici definite simmetriche positive sono così importanti, quindi fornirò una risposta spiegando perché non sono così importanti come pensano alcune persone, inclusi gli autori di alcune di quelle risposte. Per semplicità, limiterò l'attenzione alle matrici simmetriche e mi concentrerò sull'assia e sull'ottimizzazione.

Se Dio avesse reso il mondo convesso, non ci sarebbe ottimizzazione convessa, ci sarebbe solo l'ottimizzazione. Allo stesso modo, non ci sarebbero matrici definite (simmetriche) positive, ci sarebbero solo matrici (simmetriche). Ma non è così, quindi affrontalo.

Se un problema di programmazione quadratica è convesso, può essere risolto "facilmente". Se non è convesso, è ancora possibile trovare un ottimo globale usando i metodi branch e bound (ma potrebbe richiedere più tempo e più memoria).

Se un metodo di Newton viene utilizzato per l'ottimizzazione e l'Assia in qualche iterato è indefinito, non è necessario "finirlo" per definirlo positivamente. Se si utilizza una ricerca di linea, è possibile trovare le direzioni di curvatura negativa e la ricerca della linea eseguita lungo di esse, e se si utilizza una regione di fiducia, allora esiste una regione di fiducia abbastanza piccola in modo che la soluzione del problema della regione di fiducia raggiunga la discesa.

Per quanto riguarda i metodi Quasi-Newton, BFGS (smorzato se il problema è vincolato) e DFP mantengono una positività positiva dell'Assia o approssimazione dell'Assia inversa. Altri metodi Quasi-Newton, come SR1 (Symmetric Rank One), non mantengono necessariamente una definizione positiva. Prima di perdere la forma, questa è una buona ragione per scegliere SR1 per molti problemi - se l'Assia non è veramente definita positiva lungo il percorso verso l'ottimale, quindi forzare l'approssimazione Quasi-Newton per essere definita positiva può comportare un'approssimazione quadratica scadente alla funzione obiettivo. Al contrario, il metodo di aggiornamento di SR1 è "sciolto come un'oca" e può alterare senza sosta la sua definizione mentre procede.

Per problemi di ottimizzazione non linearmente vincolati, ciò che conta davvero non è l'Assia della funzione oggettiva, ma l'Assia del Lagrangiano. L'Assia del Lagrangiano può essere indefinita anche a un (il) ottimale, e infatti, è solo la proiezione dell'Assia del Lagrangiano nello spazio vuoto del Giacobino dei vincoli attivi (lineari e non lineari) che devono essere semi positivi -definito al massimo. Se modifichi l'Assia del Lagrangiano tramite BFGS e quindi lo costringi ad essere definito positivo, potrebbe essere una scelta terribile ovunque e non funzionare bene. Al contrario, SR1 può adattare i suoi autovalori a ciò che "vede" realmente.

C'è molto di più che potrei dire su tutto questo, ma è abbastanza per darti un sapore.

Modifica : Quello che ho scritto 2 paragrafi è corretto. Tuttavia, ho dimenticato di sottolineare che si applica anche a problemi linearmente vincolati. Nel caso di problemi linearmente vincolati, l'Assia del Lagrangiano è solo (si riduce a) l'Assia della funzione oggettiva. Quindi la condizione di ottimalità del 2 ° ordine per un minimo locale è che la proiezione dell'Assia della funzione oggettiva nello spazio vuoto del giacobino dei vincoli attivi sia semi-definita positiva. In particolare, l'Assia della funzione oggettiva non deve (necessariamente) essere psd ottimale, e spesso non lo è, nemmeno su problemi linearmente vincolati.



@ GeoMatt22 Scommetti che il tuo @ $$ non lo sono. D'altra parte, se hai intenzione di creare (scegliere) una funzione di perdita, non è necessario renderla non convessa quando non serve a nessun altro scopo se non quello dello spettacolo nautico. La discrezione è la parte migliore del valore.
Mark L. Stone,

@Mark L. Stone: questo è interessante! Puoi fare riferimento ad alcune pubblicazioni in cui posso leggere di queste cose?
kjetil b halvorsen,

@kjetil b halvorsen. Ricerca in linea con direzioni di curvatura negativa folk.uib.no/ssu029/Pdf_file/Curvilinear/More79.pdf . Le regioni fiduciarie sono trattate in molti libri e documenti. Il libro ben noto con una buona introduzione per fidarsi delle regioni è amazon.com/… .. Il libro dei mostri, un po 'obsoleto ora, è epubs.siam.org/doi/book/10.1137/1.9780898719857 . Per quanto riguarda il mio ultimo paragrafo sulle condizioni di ottimalità, leggi le condizioni KKT del 2 ° ordine
Mark L. Stone,

@kjetil b halvorsen Non mi sono occupato di trovare l'ottimale globale del programma quadratico non convesso. Software ampiamente disponibili, come CPLEX, possono farlo, consultare ibm.com/support/knowledgecenter/SS9UKU_12.6.1/… . Ovviamente non è sempre veloce e potrebbe aver bisogno di memoria. Ho risolto con l'ottimalità globale alcuni problemi di minimizzazione del QP con decine di migliaia di variabili che avevano diverse centinaia di autovalori negativi di magnitudo significativa.
Mark L. Stone,

5

Hai già citato una serie di motivi per cui SPD è importante, ma hai ancora pubblicato la domanda. Quindi, mi sembra che devi prima rispondere a questa domanda: perché sono importanti le quantità positive?

La mia risposta è che alcune quantità dovrebbero essere positive per riconciliarsi con le nostre esperienze o modelli. Ad esempio, le distanze tra gli oggetti nello spazio devono essere positive. Le coordinate possono essere negative, ma le distanze sono sempre non negative. Quindi, se si dispone di un set di dati e di un algoritmo che lo elabora, si potrebbe finire con uno che si rompe quando si inserisce una distanza negativa in esso. Quindi, dici "il mio algoritmo richiede sempre input di distanza positivi" e non sembrerebbe una richiesta irragionevole.

Nel contesto delle statistiche, una migliore analogia sarebbe la varianza. Quindi, calcoliamo la varianza come

Σio(Xio-μ)2/n
È ovvio dalla definizione che se inserisci i numeri reali Xionell'equazione l'uscita è sempre non negativa. Pertanto, è possibile creare algoritmi che funzionano con numeri non negativi e potrebbero essere più efficienti dell'algoritmo senza questa restrizione. Questo è il motivo per cui li usiamo.

Quindi, le matrici varianza-covarianza sono semi-definite positive, cioè "non negative" in questa analogia. L'esempio di un algoritmo che richiede questa condizione è la decomposizione di Cholesky, è molto utile. Viene spesso chiamata "radice quadrata della matrice". Quindi, come la radice quadrata di un numero reale che richiede non negatività, Cholesky vuole matrici non negative. Non troviamo questo vincolo quando si tratta di matrici di covarianza perché lo sono sempre.

Quindi, questa è la mia risposta utilitaria. I vincoli come la non negatività o SPD ci consentono di costruire algoritmi di calcolo più efficienti o strumenti di modellazione convenienti disponibili quando i tuoi input soddisfano questi vincoli.


3

Ecco altri due motivi che non sono stati menzionati per cui le matrici semidefinite positive sono importanti:

  1. Il grafico della matrice laplaciana è diagonalmente dominante e quindi PSD.

  2. La semidefinità positiva definisce un ordine parziale sull'insieme delle matrici simmetriche (questo è il fondamento della programmazione semidefinita).

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.