Il limite dello stimatore della regressione della cresta "varianza unitaria" quando


21

Considera la regressione della cresta con un vincolo aggiuntivo che richiede che abbia la somma unitaria dei quadrati (equivalentemente, varianza unitaria); se necessario, si può presumere che abbia anche la somma unitaria dei quadrati:y^y

β^λ=argmin{yXβ2+λβ2}s.t.Xβ2=1.

Qual è il limite di β^λ quando λ ?


Ecco alcune affermazioni che credo siano vere:

  1. Quando λ=0 , esiste una chiara soluzione esplicita: prendere lo stimatore OLS β^0=(XX)1Xy normalizzalo per soddisfare il vincolo (puoi vederlo aggiungendo un moltiplicatore di Lagrange e differenziandolo):

    β^0=β^0/Xβ^0.
  2. In generale, la soluzione è

    β^λ=((1+μ)XX+λI)1Xywith μ needed to satisfy the constraint.
    Non vedo una soluzione in formato chiuso quando λ>0 . Sembra che la soluzione sia equivalente al solito stimatore RR con alcuni λ normalizzati per soddisfare il vincolo, ma non vedo una formula chiusa per λ .
  3. Quando λ , il solito stimatore RR

    β^λ=(XX+λI)1Xy
    ovviamente converge a zero, ma la sua direzione β^λ/β^λconverge nella direzione di Xy , ovvero il primo componente parziale dei minimi quadrati (PLS).

Le dichiarazioni (2) e (3) insieme mi fanno pensare che forse β^λ converge anche nel \ mathbf X ^ \ top \ mathbf y opportunamente normalizzato Xy, ma non sono sicuro che questo è corretto e non sono riuscito a convincermi in entrambi i modi.

Risposte:


17

Un'interpretazione geometrica

Lo stimatore descritto nella domanda è l'equivalente del moltiplicatore di Lagrange del seguente problema di ottimizzazione:

minimize f(β) subject to g(β)t and h(β)=1 

f(β)=yXβ2g(β)=β2h(β)=Xβ2

che può essere visto, geometricamente, come trovare l'ellissoide più piccolo che tocca l'intersezione della sfera l'ellissoidef(β)=RSS g(β)=th(β)=1


Confronto con la vista di regressione della cresta standard

In termini di una vista geometrica, ciò cambia la vecchia vista (per la regressione della cresta standard) del punto in cui uno sferoide (errori) e una sfera ( ) toccanoβ2=t . In una nuova vista in cui cerchiamo il punto in cui lo sferoide (errori) tocca una curva (norma della beta vincolata da ) . L'unica sfera (blu nell'immagine a sinistra) si trasforma in una figura di dimensione inferiore a causa dell'intersezione con il vincolo .X β 2 = 1X β = 1Xβ2=1Xβ=1

Nel caso bidimensionale questo è semplice da visualizzare.

vista geometrica

Quando mettiamo a punto il parametro , cambiamo la lunghezza relativa delle sfere blu / rosse o le dimensioni relative di e (Nella teoria dei moltiplicatori lagrangiani c'è probabilmente un modo pulito per formalmente e descriviamo esattamente che ciò significa che per ogni come funzione di , o invertita, è una funzione monotona, ma immagino che si possa vedere intuitivamente che la somma dei residui quadrati aumenta solo quando diminuiamo .)tf(β)g(β) t λ | | β | |tλ||β||

La soluzione per è come hai sostenuto su una linea tra 0 eβλλ=0βLS

La soluzione per è (anzi come hai commentato) nei caricamenti del primo componente principale. Questo è il punto in cui è il più piccolo per . È il punto in cui il cerchio tocca l'ellisse in un singolo punto.βλλβ2βX2=1β2=t|Xβ|=1

In questa vista i bordi dell'intersezione della sfera sferoide sono punti. In più dimensioni queste saranno curveβ2=tβX2=1

(Ho immaginato prima che queste curve fossero ellissi ma sono più complicate. Potresti immaginare l'ellissoide intersecato dalla palla come alcuni una specie di frustum ellissoidale ma con bordi che non sono semplici ellissi)Xβ2=1β2t


Per quanto riguarda il limite daλ

All'inizio (modifiche precedenti) ho scritto che ci sarà qualche limite al sopra il quale tutte le soluzioni sono uguali (e risiedono nel punto ). Ma non è cosìλlimβ

Considera l'ottimizzazione come un algoritmo LARS o una discesa gradiente. Se per qualsiasi punto esiste una direzione in cui possiamo modificare la tale che il termine di penalità aumenti meno del termine SSR diminuisca, allora non sei minimamente .ββ|β|2|yXβ|2

  • Nella normale regressione della cresta si ha una pendenza zero (in tutte le direzioni) per nel punto . Quindi per tutti i finiti la soluzione non può essere (poiché è possibile effettuare un passo infinitesimale per ridurre la somma dei residui quadrati senza aumentare la penalità).|β|2β=0λβ=0
  • Per LASSO non è più la stessa: la penalità è (quindi non è quadratica con pendenza zero). Per questo motivo LASSO avrà un valore limite sopra del quale tutte le soluzioni sono zero perché il termine di penalità (moltiplicato per ) aumenterà più della diminuzione della somma residua dei quadrati.|β|1λlimλ
  • Per la cresta vincolata si ottiene la stessa regressione della cresta normale. Se cambi partire da questa modifica sarà perpendicolare a ( è perpendicolare alla superficie dell'ellisse ) e possono essere modificati con un passo infinitesimale senza cambiare il termine di penalità ma diminuendo la somma dei residui quadrati. Quindi per qualsiasi finito il punto non può essere la soluzione.ββ β β | X β | = 1 β λ β ββ|Xβ|=1βλβ

Ulteriori note relative al limite daλ

Il solito limite di regressione della cresta per all'infinito corrisponde a un punto diverso nella regressione della cresta vincolata. Questo limite 'vecchio' corrisponde al punto in cui è uguale a -1. Quindi la derivata della funzione di Lagrange nel problema normalizzatoλμ

2(1+μ)XTXβ+2XTy+2λβ
corrisponde a una soluzione per la derivata della funzione di Lagrange nel problema standard

2XTXβ+2XTy+2λ(1+μ)βwith β=(1+μ)β


Scritto da StackExchangeStrike


+1. Grazie mille, è molto utile! Avrò bisogno di un po 'di tempo per pensarci su.
ameba dice di reintegrare Monica il

Vale la pena sottolineare che gli ellissoidi rossi e neri hanno la stessa forma: ecco perché il punto in cui si toccano si trova sulla linea che collega i loro centri. Bella prova grafica del punto 1 nella mia domanda.
ameba dice Reinstate Monica il

Sto cercando di capire dove sul tuo disegno è la beta che corrisponde allo stimatore di cresta con lambda infinita, normalizzata per giacere sull'ellisse nera. Penso che sia da qualche parte tra e (usando la mia notazione) - due punti che sono segnati con cerchi neri aperti sul tuo disegno. Quindi se eseguiamo la regressione della cresta e normalizziamo la soluzione e aumentiamo la lambda da 0 a infinito, probabilmente ci porta lungo lo stesso arco, ma non completamente fino a PC1. Invece, inserendo esplicitamente il vincolo , fa sì che le soluzioni vadano fino al PC1. β X β = 1β0βXβ=1
ameba dice di reintegrare Monica il

+5 (ho lanciato una taglia che assegnerò felicemente alla tua risposta). Ho anche pubblicato la mia risposta perché ho fatto alcune derivazioni algebriche ed era troppo da aggiungere alla domanda. Non sono convinto dalla tua conclusione che ci sarà qualche finito dopo il quale la soluzione non cambierà più e sarà data da PC1. Non lo vedo algebricamente e non capisco bene la tua tesi sul perché dovrebbe esistere. Proviamo a capirlo. λlim
ameba dice di reintegrare Monica il

@amoeba, avevi ragione sul finito inesistente. Ho discusso troppo intuitivamente e sono passato rapidamente da una condizione particolare per la regressione della cresta regolare alla regressione della cresta vincolata. RR regolare ha una pendenza zero (in tutte le direzioni) per nel punto . Ho pensato che (poiché ) non si ottiene questo con la regressione vincolata. Tuttavia perché è vincolato all'ellissoide non puoi "spostare" in tutte le direzioni. | β | 2 β = 0 β 0 β | X β | = 1 βλlim|β|2β=0β0β|Xβ|=1β
Sesto Empirico

10

Questa è una controparte algebrica della bella risposta geometrica di @ Martijn.

Innanzitutto, il limite di quando è molto semplice da ottenere: nel limite, il primo termine nella funzione di perdita diventa trascurabile e può quindi essere ignorato. Il problema di ottimizzazione diventa che è il primo componente principale diλ lim λ β * λ = β * = un r g

β^λ=argmin{yXβ2+λβ2}s.t.Xβ2=1
λX
limλβ^λ=β^=argminXβ2=1β2argmaxβ2=1Xβ2,
X(opportunamente ridimensionato). Questo risponde alla domanda.

Consideriamo ora la soluzione per qualsiasi valore di cui ho fatto riferimento al punto 2 della mia domanda. Aggiungendo alla funzione di perdita il moltiplicatore di Lagrange e differenziando, otteniamoμ ( X β 2 - 1 )λμ(Xβ21)

β^λ=((1+μ)XX+λI)1Xywith μ needed to satisfy the constraint.

Come si comporta questa soluzione quando cresce da zero a infinito?λ

  • Quando , otteniamo una versione ridimensionata della soluzione OLS:β * 0 ~ β 0 .λ=0

    β^0β^0.
  • Per valori positivi ma piccoli di , la soluzione è una versione ridimensionata di alcuni stimatori di creste:ß * λ ~ ß λ * .λ

    β^λβ^λ.
  • Quando, il valore di necessario per soddisfare il vincolo è . Ciò significa che la soluzione è una versione ridimensionata del primo componente PLS (il che significa che dello stimatore della cresta corrispondente è ):λ=XXy(1+μ)0λ

    β^XXyXy.
  • Quando diventa più grande di quello, il termine necessario diventa negativo. D'ora in poi, la soluzione è una versione ridimensionata di uno stimatore pseudo-cresta con parametro di regolarizzazione negativo ( cresta negativa ). In termini di direzioni, ora abbiamo superato la regressione della cresta con lambda infinita.λ(1+μ)

  • Quando , il termine andrebbe a zero (o diverge in infinito) a meno che dove è il valore singolare più grande di . Ciò renderà finito e proporzionato al primo asse principale . Dobbiamo impostare per soddisfare il vincolo. Pertanto, otteniamo quelλ((1+μ)XX+λI)1μ=λ/smax2+αsmaxX=USVβ^λV1μ=λ/smax2+U1y1

    β^V1.

Complessivamente, vediamo che questo problema di minimizzazione limitata comprende le versioni di varianza unitaria di OLS, RR, PLS e PCA sul seguente spettro:

OLSRRPLSnegative RRPCA

Questo sembra essere equivalente a un oscuro (?) Quadro di chemometria chiamato "regressione continua" (vedi https://scholar.google.de/scholar?q="continuum+regression " , in particolare Stone & Brooks 1990, Sundberg 1993, Björkström & Sundberg 1999, ecc.) Che consente la stessa unificazione massimizzando un criterio ad hocQuesto ovviamente produce OLS ridimensionato quando , PLS quando , PCA quando , e può essere mostrato che produce RR scalato perγ = 0 γ = 1 γ 0 < γ < 1 1 < γ <

T=corr2(y,Xβ)Varγ(Xβ)s.t.β=1.
γ=0γ=1γ0<γ<11<γ< , vedi Sundberg 1993.

Pur avendo abbastanza esperienza con RR / PLS / PCA / ecc., Devo ammettere di non aver mai sentito parlare di "regressione continua" prima. Dovrei anche dire che non mi piace questo termine.


Uno schema che ho fatto basandomi su quello di @ Martijn:

Regressione della cresta di varianza unitaria

Aggiornamento: Figura aggiornata con il percorso della cresta negativa, enorme grazie a @Martijn per aver suggerito come dovrebbe apparire. Vedi la mia risposta in Comprensione della regressione della cresta negativa per maggiori dettagli.


La "regressione continua" sembra essere una di una categoria sorprendentemente ampia di tecniche volte a unificare PLS e PCA in un quadro comune. Non ne avevo mai sentito parlare, per inciso, fino a quando non ho fatto ricerche sulla cresta negativa (fornisco un link al documento di Bjorkstron e Sundberg, 1999, nel primo commento della domanda sulla cresta negativa a cui ti colleghi), sebbene sembri essere ampiamente discusso in la letteratura chemiometrica. Ci deve essere una ragione storica per cui si è sviluppata apparentemente in isolamento da altri campi della statistica. (1/3)
Ryan Simmons

Un articolo che potresti voler leggere è de Jong et al. (2001) . La loro formulazione di "PLS canonico" sembra a prima vista equivalente alla tua, anche se ammetto di non aver ancora rigorosamente confrontato la matematica (forniscono anche una revisione di molte altre generalizzazioni di PLS-PCA nella stessa vena). Ma può essere perspicace vedere come hanno spiegato il problema. (2/3)
Ryan Simmons

Nel caso in cui il collegamento dovesse scomparire, la citazione completa è: Sijmen de Jong, Barry M. Wise, N. Lawrence Ricker. "Minimi quadrati canonici e regressione di potenza continua." Journal of Chemometrics, 2001; 15: 85-100. doi.org/10.1002/… (3/3)
Ryan Simmons

1
ah, ok, quindi e vanno a infinity ma il loro rapporto rimane . In ogni caso, il percorso di regressione della cresta negativa dovrebbe essere nel settore (negativo) tra i vettori PLS e PCA in modo tale che la loro proiezione sull'ellisseè compreso tra i punti PLS e PCA. (la norma che va all'infinito ha senso mentre anche il va all'infinito, quindi il percorso continua in basso a destra, inizialmente tangente a, negativo, PLS e infine a PCA) 1 + μ ± s 2 m a x | X β = 1 | μλ1+μ±smax2|Xβ=1|μ
Sisto Empirico

1
Si aggiungerebbe alla visualizzazione. Immagino che gli attuali tre punti del percorso RR (in cui il cerchio e l'ellissoide si toccano) continuino verso il basso a destra e alla fine, all'infinito, il cerchio e l'ellissoide dovrebbe 'toccare' in direzione del punto in cui il cerchio tocca l'ellissoide | X ( β - β ) | 2 = R S S | β | 2 = t p c a | X β | 2 = 1|β|2=t|X(ββ^)|2=RSS|β|2=tpca|Xβ|2=1
Sextus Empiricus
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.