Perché la stima della cresta diventa migliore dell'OLS aggiungendo una costante alla diagonale?


59

Comprendo che la stima della regressione della cresta è il β che minimizza la somma residua del quadrato e una penalità sulla dimensione di β

βridge=(λID+XX)1Xy=argmin[RSS+λβ22]

Tuttavia, non capisco appieno il significato del fatto che differisce da aggiungendo solo una piccola costante alla diagonale di . Infatti,β OLS X XβridgeβOLSXX

βOLS=(XX)1Xy
  1. Il mio libro menziona che ciò rende la stima più stabile numericamente - perché?

  2. La stabilità numerica è correlata alla contrazione verso 0 della stima della cresta o è solo una coincidenza?

Risposte:


76

In una regressione non aperta, è spesso possibile ottenere una cresta * nello spazio dei parametri, in cui molti valori diversi lungo la cresta fanno tutti altrettanto o quasi anche con il criterio dei minimi quadrati.

* (almeno, è una cresta nella funzione di probabilità - in realtà sono valli $ nel criterio RSS, ma continuerò a chiamarla una cresta, poiché sembra essere convenzionale - o addirittura, come indica Alexis nei commenti, potrei definirlo un thalweg , essendo la controparte della valle di una cresta)

In presenza di una cresta nel criterio dei minimi quadrati nello spazio dei parametri, la penalità che si ottiene con la regressione della cresta si libera di quelle creste spingendo il criterio verso l'alto mentre i parametri si allontanano dall'origine:

inserisci qui la descrizione dell'immagine
[ Immagine più chiara ]

Nel primo grafico, una grande modifica dei valori dei parametri (lungo la cresta) produce una minuscola modifica nel criterio RSS. Ciò può causare instabilità numerica; è molto sensibile alle piccole modifiche (ad es. una piccola modifica nel valore di un dato, persino un errore di troncamento o arrotondamento). Le stime dei parametri sono quasi perfettamente correlate. È possibile ottenere stime di parametri di dimensioni molto grandi.

Al contrario, sollevando la cosa che riduce la regressione della cresta (aggiungendo la penalità ) quando i parametri sono lontani da 0, piccoli cambiamenti nelle condizioni (come un piccolo arrotondamento o errore di troncamento) non possono produrre cambiamenti giganteschi nel risultato stime. Il termine di penalità si traduce in una riduzione verso 0 (con conseguente distorsione). Una piccola quantità di distorsione può acquistare un sostanziale miglioramento della varianza (eliminando quella cresta).L2

L'incertezza delle stime è ridotta (gli errori standard sono inversamente correlati alla seconda derivata, che è resa più grande dalla penalità).

La correlazione nelle stime dei parametri è ridotta. Ora non otterrai stime di parametri molto grandi se l'RSS per piccoli parametri non sarebbe molto peggio.


4
Questa risposta mi aiuta davvero a capire il restringimento e la stabilità numerica. Tuttavia, non sono ancora chiaro su come "l'aggiunta di una piccola costante a " queste due cose. XX
Heisenberg,

4
L'aggiunta di una costante alla diagonale * equivale all'aggiunta di un paraboloide circolare centrato a sull'RSS (con il risultato mostrato sopra - "tira su" lontano da zero - eliminando la cresta). * (non è necessariamente piccolo, dipende da come lo guardi e da quanto hai aggiunto)0
Glen_b

6
Glen_b l'antonimo di "ridge" in lingua inglese che stai cercando (quel percorso / curva lungo un fondovalle) è thalweg . Di cui ho appena imparato due settimane fa e che adoro semplicemente. Non ha nemmeno suona come una parola inglese! : D
Alexis,

5
@Alexis Sarebbe senza dubbio una parola utile, quindi grazie per quello. Probabilmente non suona l'inglese perché è una parola tedesca (in effetti il thal è lo stesso 'thal' come in " Neanderthal " = "valle di Neander" e weg = 'way'). [In realtà, volevo "cresta" non perché non potessi pensare a come chiamarla, ma perché la gente sembra chiamarla cresta sia che stiano osservando la probabilità o l'RSS, e stavo spiegando il mio desiderio di seguire la convenzione, anche se sembra strana. Thalweg sarebbe una scelta eccellente per la parola giusta, se non
seguissi

4
X si avvicina a una matrice non di rango completo (e quindi X'X diventa quasi singolare) esattamente quando appare una cresta con probabilità. La cresta è una conseguenza diretta di una relazione quasi lineare tra le colonne di , che rende s (quasi) linearmente dipendente. βXβ
Glen_b,

28

+1 sull'illustrazione di Glen_b e i commenti delle statistiche sullo stimatore di Ridge. Vorrei solo aggiungere un pov puramente matematico (algebra lineare) sulla regressione di Ridge che risponde alle domande 1 dei PO e 2).

Prima nota che è una matrice semidefinita positiva simmetrica - volte la matrice di covarianza del campione. Quindi ha la decomposizione degli automip × p nXXp×pn

XX=VDV,D=[d1dp],di0

Ora poiché l'inversione della matrice corrisponde all'inversione degli autovalori, lo stimatore OLS richiede (notare che ). Ovviamente questo funziona solo se tutti gli autovalori sono rigorosamente maggiori di zero, . Per questo è impossibile; per è in generale vero - questo è quello in cui di solito ci occupiamo della multicollinearità .(XX)1=VD1VV=V1di>0pnnp

Come statistici vogliamo anche sapere come piccole perturbazioni nei dati cambiano le stime. È chiaro che una piccola modifica in qualsiasi porta a enormi variazioni in se è molto piccolo.Xdi1/didi

Quindi ciò che fa la regressione di Ridge è spostare tutti gli autovalori più lontano da zero come

XX+λIp=VDV+λIp=VDV+λVV=V(D+λIp)V,
che ora ha autovalori . Questo è il motivo per cui la scelta di un parametro di penalità positiva rende la matrice invertibile, anche nel caso . Per la regressione di Ridge una piccola variazione nei dati non ha più l'effetto estremamente instabile che ha sull'inversione della matrice.di+λλ0pnX

La stabilità numerica è correlata alla contrazione a zero in quanto entrambi sono una conseguenza dell'aggiunta di una costante positiva agli autovalori: la rende più stabile perché una piccola perturbazione in non modifica troppo l'inverso; lo restringe vicino a poiché ora il termine viene moltiplicato per che è più vicino a zero della soluzione OLS con autovalori inversi .0 V - 1 X y 1 / ( d i + λ ) 1 / dX0V1Xy1/(di+λ)1/d


2
Questa risposta risponde in modo soddisfacente alla parte algebrica della mia domanda! Insieme alla risposta Glen_b fornisce una spiegazione completa del problema.
Heisenberg,

17

La dimostrazione di Glen_b è meravigliosa. Vorrei solo aggiungere che a parte la causa esatta del problema e la descrizione di come funziona la regressione penalizzata quadratica, c'è la linea di fondo che la penalizzazione ha l'effetto netto di ridurre i coefficienti diversi dall'intercettazione verso lo zero. Ciò fornisce una soluzione diretta al problema del sovradimensionamento che è inerente alla maggior parte delle analisi di regressione quando la dimensione del campione non è enorme in relazione al numero di parametri stimati. Quasi qualsiasi penalizzazione verso lo zero per le non-intercettazioni migliorerà la precisione predittiva rispetto a un modello non penalizzato.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.