Ecco un'illustrazione geometrica di ciò che sta accadendo con la cresta negativa.
Considererò stimatori della forma β λ = ( X ⊤ X + λ I ) - 1 X ⊤ y derivante dalla funzione di perdita L λ = ‖ y - X β ‖ 2 + λ ‖ β ‖ 2 . Ecco un'illustrazione piuttosto standard di ciò che accade in un caso bidimensionale con λ ∈ [ 0 , ∞ )
β^λ=(X⊤X+λI)−1X⊤y
Lλ= ∥ y - X β ∥2+ λ ∥ β ∥2.
λ ∈ [ 0 , ∞ ). Zero lambda corrisponde alla soluzione OLS, infinito lambda riduce la beta stimata a zero:
Consideriamo ora cosa accade quando , dove è il più grande valore singolare di . Per lambda negative molto grandi, è ovviamente vicino allo zero. Quando lambda si avvicina a , il termine ottiene un valore singolare che si avvicina a zero, il che significa che l'inverso ha un valore singolare che va a meno infinito. Questo valore singolare corrisponde al primo componente principale di , quindi nel limite si ottiene punta nella direzione di PC1 ma con valore assoluto che cresce all'infinito.s m a xλ ∈ ( - ∞ , - s2max)Sm a xβX - s 2 max ( X ⊤ X + λ I )β^λ- s2max( X⊤X +λ I )ß λXβ^λ
Ciò che è veramente bello, è che si può disegnare sulla stessa figura allo stesso modo: i beta sono dati da punti in cui i cerchi toccano le ellissi dall'interno :
Quando , si applica una logica simile, che consente di continuare il percorso della cresta sull'altro lato dello stimatore OLS. Ora i cerchi toccano le ellissi dall'esterno. il limite, i beta si avvicinano alla direzione PC2 (ma accade molto al di fuori di questo schizzo):λ ∈ ( - s2m i n, 0 ]
L' intervallo è una specie di gap energetico : gli stimatori non vivono sulla stessa curva.( - s2m a x, - s2m i n)
AGGIORNAMENTO: Nei commenti @MartinL viene spiegato che per la perdita non ha un minimo ma ha un massimo. E questo massimo è dato da . Ecco perché la stessa costruzione geometrica con il tocco del cerchio / ellisse continua a funzionare: stiamo ancora cercando punti con gradiente zero. Quando , la perdita ha un minimo ed è data da , esattamente come nella norma case.λ < - s2m a xLλβ^λ- s2m i n< λ ≤ 0Lλβ^λλ > 0
Ma quando , la perdita non ha né il massimo né il minimo; corrisponderebbe a un punto di sella. Questo spiega il "gap energetico".- s2m a x< λ < - s2m i nLλβ^λ
Il deriva naturalmente da una particolare regressione della cresta vincolata, vedere Il limite dello stimatore di regressione della cresta "varianza unitaria" quando . Questo è legato a ciò che è noto nella letteratura di chemiometria come "regressione continua", vedere la mia risposta nel thread collegato.λ ∈ ( - ∞ , - s2max)λ → ∞
Il può essere trattata esattamente nello stesso modo in cui : i soggiorni funzione di perdita dello stesso e lo stimatore cresta fornisce il suo minimo.λ > 0λ ∈ ( - s2m i n, 0 ]λ>0