Applicare la regressione della cresta per un sistema di equazioni indefinito?


9

Quando , il problema dei minimi quadrati che impone una restrizione sferica sul valore di può essere scritto come per un sistema indefinito. \ | \ cdot \ | _2 è la norma euclidea di un vettore.y=Xβ+eδβ

min yXβ22s.t.  β22δ2
2

La soluzione corrispondente a β è data da

β^=(XTX+λI)1XTy ,
che può essere derivato dal metodo dei moltiplicatori di Lagrange ( λ è il moltiplicatore):
L(β,λ)=yXβ22+λ(β22δ2)

Capisco che esiste una proprietà che

(XTX+λI)1XT=XT(XXT+λI)1 .
Il lato destro assomiglia allo pseudo-inverso della matrice X del regressore Xnel caso indefinito (con il parametro di regolarizzazione aggiunto, λ ). Questo significa che la stessa espressione può essere usata per approssimare β per il caso indeterminato? Esiste una derivazione separata per l'espressione corrispondente nel caso indeterminato, poiché il vincolo di restrizione sferica è ridondante con la funzione obiettiva (norma minima di β ):

min. β2s.t. Xβ=y .

Risposte:


12

A partire dalla formulazione del problema di regressione della cresta come

minXβy22+λx22

puoi scrivere il problema come

minAβb22

dove

A=[XλI]

e

b=[y0].

La matrice ha un rango di colonna completo a causa della parte I . Quindi il problema dei minimi quadrati come soluzione unicaAλI

β^=(ATA)1ATb

Scrivendolo in termini di e e semplificando molti 0, otteniamoXy

β^=(XTX+λI)1XTy

Nulla in questa derivazione dipende dal fatto che abbia più righe o colonne, o anche se abbia il rango completo. Questa formula è quindi applicabile al caso indeterminato. XX

È un fatto algebrico che per ,λ>0

(XTX+λI)1XT=XT(XXT+λI)1

Quindi abbiamo anche la possibilità di usare

β^=XT(XXT+λI)1y .

Per rispondere a domande specifiche:

  1. Sì, entrambe le formule funzionano per il caso indeterminato e per il caso sopra determinato. Opera anche se è inferiore al minimo del numero di righe e colonne di . La seconda versione può essere più efficiente per problemi non determinati perché è più piccolo di in quel caso. rank(X)XXXTXTX

  2. Non sono a conoscenza di alcuna derivazione della versione alternativa della formula che inizia con qualche altro problema dei minimi quadrati smorzati e utilizza le equazioni normali. In ogni caso puoi ricavarlo in modo semplice usando un po 'di algebra.

È possibile che tu stia pensando al problema di regressione della cresta nel modulo

minβ22

soggetto a

Xβy22ϵ.

Tuttavia, questa versione del problema di regressione della cresta porta semplicemente allo stesso problema smorzato dei minimi quadrati .minXβy22+λβ22


2
Vale la pena notare cosa succede nel limite dato che va a 0 se ha un rango di riga completo o un rango di colonna completo. Se ha un rango di colonna completo, quindi nel limite, ottieni lo pseudoinverso . Allo stesso modo, se ha un rango di riga completo, nel limite si ottiene la pseudo-inversa . Quindi, questo funziona come ci aspetteremmo. λXX(XTX)1XTXXT(XXT)1
Brian Borchers,

Questa è una risposta fenomenale e la derivazione dagli array aumentati (più l'algebra che ho perso) è molto soddisfacente. Non stavo pensando al problema della regressione della cresta nella forma che hai presentato alla fine, ma è interessante vedere che porta alla stessa funzione oggettiva. Un grande grazie!
hatmatrix,

1
Grazie. Inserirò qui una spina spudorata- Puoi trovare questo (e molto materiale correlato) nel libro di testo sulla stima dei parametri e sui problemi inversi che ho coautore con Rick Aster e Cliff Thurber.
Brian Borchers,

1
Consentitemi inoltre di aggiungere che calcolare effettivamente questa matrice inversa non è in genere il modo migliore per utilizzare questa formula. A seconda delle dimensioni e la possibile scarsità di potrebbe essere molto meglio utilizzando uno schema iterativo o semplicemente utilizzando la fattorizzazione di Cholesky della matrice . XXTX+λI
Brian Borchers,

Grazie per i vostri suggerimenti! Apprezzo il riferimento al tuo libro in quanto ho avuto difficoltà a trovare un libro di testo su questo materiale. La nostra dimensione dei dati in realtà non è molto grande (solo che potremmo doverlo applicare molte volte per separare i set di dati), quindi potrebbe essere suscettibile all'inverso diretto, ma grazie per i puntatori aggiuntivi!
hatmatrix,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.