Comprensione della regressione della cresta negativa


12

Sto cercando letteratura sulla regressione della cresta negativa .

In breve, si tratta di una generalizzazione della regressione della cresta lineare usando negativo nella formula dello stimatore:Il caso positivo ha una buona teoria: come una funzione di perdita, come un vincolo, come un precedente di Bayes ... ma mi sento perso con la versione negativa con solo la formula sopra. Capita di essere utile per quello che sto facendo, ma non riesco a interpretarlo chiaramente.ß = ( X X + λ I ) - 1 X y .λ

β^=(XX+λI)1Xy.

Conosci qualche serio testo introduttivo sulla cresta negativa? Come può essere interpretato?


1
Non conosco alcun testo introduttivo che ne parli, ma questa fonte potrebbe essere illuminante, in particolare la discussione in fondo a pagina 18: jstor.org/stable/4616538?seq=1#page_scan_tab_contents
Ryan Simmons

1
Nel caso in cui tale collegamento dovesse scomparire in futuro, la citazione completa è: Björkström, A. & Sundberg, R. "Una visione generalizzata sulla regressione continua". Scandinavian Journal of Statistics, 26: 1 (1999): pp.17-30
Ryan Simmons

2
Molte grazie. Ciò fornisce una chiara interpretazione della cresta tramite CR quando (Autovalore maggiore della matrice di covarianza). Sto ancora cercando un'interpretazione con λ > - λ 1 ...λ<λ1λ>λ1
Benoit Sanchez

Si noti in questo sviluppo della regressione della cresta dalla regolarizzazione di Tikhonov che la regolarizzazione di Tikhonov diventa α 2 I per la regressione della cresta. Successivamente, α 2 viene solitamente sostituito da λ . L'unico modo per rendere questo negativo è che α sia immaginario, cioè un multiplo di i = ΓTΓα2Iα2λα . OK, e adesso? Dove vuoi andare con esso? i=1
Carl,

Cresta negativa menzionata qui: stats.stackexchange.com/questions/328630/… con alcuni link
kjetil b halvorsen

Risposte:


12

Ecco un'illustrazione geometrica di ciò che sta accadendo con la cresta negativa.

Considererò stimatori della forma β λ = ( XX + λ I ) - 1 Xy derivante dalla funzione di perdita L λ = y - X β 2 + λ β 2 . Ecco un'illustrazione piuttosto standard di ciò che accade in un caso bidimensionale con λ [ 0 , )

β^λ=(XX+λI)1Xy
Lλ=yXβ2+λβ2.
λ[0,). Zero lambda corrisponde alla soluzione OLS, infinito lambda riduce la beta stimata a zero:

inserisci qui la descrizione dell'immagine

Consideriamo ora cosa accade quando , dove è il più grande valore singolare di . Per lambda negative molto grandi, è ovviamente vicino allo zero. Quando lambda si avvicina a , il termine ottiene un valore singolare che si avvicina a zero, il che significa che l'inverso ha un valore singolare che va a meno infinito. Questo valore singolare corrisponde al primo componente principale di , quindi nel limite si ottiene punta nella direzione di PC1 ma con valore assoluto che cresce all'infinito.s m a xλ(,smax2)smaxβX - s 2 max ( XX + λ I )β^λsmax2(XX+λI)ß λXβ^λ

Ciò che è veramente bello, è che si può disegnare sulla stessa figura allo stesso modo: i beta sono dati da punti in cui i cerchi toccano le ellissi dall'interno :

inserisci qui la descrizione dell'immagine

Quando , si applica una logica simile, che consente di continuare il percorso della cresta sull'altro lato dello stimatore OLS. Ora i cerchi toccano le ellissi dall'esterno. il limite, i beta si avvicinano alla direzione PC2 (ma accade molto al di fuori di questo schizzo):λ(smin2,0]

inserisci qui la descrizione dell'immagine

L' intervallo è una specie di gap energetico : gli stimatori non vivono sulla stessa curva.(smax2,smin2)

AGGIORNAMENTO: Nei commenti @MartinL viene spiegato che per la perdita non ha un minimo ma ha un massimo. E questo massimo è dato da . Ecco perché la stessa costruzione geometrica con il tocco del cerchio / ellisse continua a funzionare: stiamo ancora cercando punti con gradiente zero. Quando , la perdita ha un minimo ed è data da , esattamente come nella norma case.λ<smax2Lλβ^λsmin2<λ0Lλβ^λλ>0

Ma quando , la perdita non ha né il massimo né il minimo; corrisponderebbe a un punto di sella. Questo spiega il "gap energetico".smax2<λ<smin2Lλβ^λ


Il deriva naturalmente da una particolare regressione della cresta vincolata, vedere Il limite dello stimatore di regressione della cresta "varianza unitaria" quando . Questo è legato a ciò che è noto nella letteratura di chemiometria come "regressione continua", vedere la mia risposta nel thread collegato.λ(,smax2)λ

Il può essere trattata esattamente nello stesso modo in cui : i soggiorni funzione di perdita dello stesso e lo stimatore cresta fornisce il suo minimo.λ > 0λ(smin2,0]λ>0


1
Grazie per i grafici interessanti. Quando , la soluzione che hai rappresentato è il massimo globale della funzione di costo, non un minimo globale. Allo stesso modo, quando , il punto che hai rappresentato dovrebbe essere un punto di sella della funzione di costo. - s 2 max < λ < 0λ<smax2smax2<λ<0
Martin L

1
Considera solo i termini quadratici nella funzione di costo. Possono essere scritti come Sia , quindi la matrice tra parentesi ha solo autovalori negativi. Let e la matrice ha autovalori sia positivi che negativi. Questi autovalori influenzano se il punto è un punto di sella, minimo o massimo della funzione di costo. λ < - s 2 max - s 2 max < λ < 0
βT(XTX+λI)β.
λ<smax2smax2<λ<0
Martin L

1
È molto utile, grazie mille. Ho fatto un aggiornamento alla mia risposta.
ameba dice di reintegrare Monica il

1
Grazie. In particolare per rendersi conto che il punto di sella è valido solo quando . Quando , da allora la soluzione è ancora un minimo globale, è definito positivo. Il mio commento precedente era quindi parzialmente errato. λ > - s 2 min X T X + λ Ismax2<λ<smin2λ>smin2XTX+λI
Martin L
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.