Come trovare i coefficienti di regressione nella regressione della cresta?


14

Nella regressione della cresta, la funzione obiettivo da minimizzare è:

RSS+λβj2.

Questo può essere ottimizzato usando il metodo del moltiplicatore di Lagrange? O è una differenziazione diretta?


1
Qual è la connessione tra il titolo (che si concentra su λ ) e la domanda (che sembra essere solo sulla βj )? Temo che "essere ottimizzati" potrebbe avere interpretazioni nettamente diverse a seconda di quali variabili sono considerate quelle che possono essere variate e quali devono essere riparate.
whuber

1
grazie modificato la domanda. Ho letto che la λ si trova per convalida incrociata, ma credo che ciò significhi che hai già la βj e usi dati diversi per trovare la migliore λ domanda è: come trovare le βj in primo luogo quando λ è sconosciuto?
Minaj,

Risposte:


22

Esistono due formulazioni per il problema della cresta. Il primo è

βR=argminβ(yXβ)(yXβ)

soggetto a

jβj2s.

Questa formulazione mostra il vincolo dimensionale sui coefficienti di regressione. Nota cosa implica questo vincolo; stiamo forzando i coefficienti a trovarsi in una palla attorno all'origine con raggio .s

La seconda formulazione è esattamente il tuo problema

βR=argminβ(yXβ)(yXβ)+λβj2

che può essere vista come la formulazione del moltiplicatore di Largrange. Si noti che qui è un parametro di ottimizzazione e valori maggiori di esso porteranno a una riduzione maggiore. Puoi procedere a differenziare l'espressione rispetto a e ottenere il noto stimatore della crestaλβ

(1)βR=(XX+λI)1Xy

Le due formulazioni sono completamente equivalenti , poiché esiste una corrispondenza uno a uno tra e .sλ

Vorrei approfondire un po 'quello. Immagina di trovarti nel caso ortogonale ideale, . Questa è una situazione altamente semplificata e non realistica, ma possiamo investigare lo stimatore un po 'più da vicino, quindi abbiate pazienza. Considera cosa succede all'equazione (1). Lo stimatore della cresta si riduce aXX=I

βR=(I+λI)1Xy=(I+λI)1βOLS

come nel caso ortogonale, lo stimatore OLS è dato da . Guardando a questo componente ora otteniamoβOLS=Xy

(2)βR=βOLS1+λ

Si noti quindi che ora il restringimento è costante per tutti i coefficienti. Questo potrebbe non valere nel caso generale e in effetti si può dimostrare che i restringimenti differiranno ampiamente se ci sono degenerazioni nella matrice .XX

Ma torniamo al problema dell'ottimizzazione vincolata. Secondo la teoria KKT , una condizione necessaria per l'ottimalità è

λ(βR,j2s)=0

quindi o o (in questo caso diciamo che il vincolo è vincolante). Se non ci sono penalità e siamo di nuovo nella normale situazione OLS. Supponiamo quindi che il vincolo sia vincolante e siamo nella seconda situazione. Usando la formula in (2), abbiamo quindiλ=0βR,j2s=0λ=0

s=βR,j2=1(1+λ)2βOLS,j2

da dove otteniamo

λ=βOLS,j2s1

la relazione uno a uno precedentemente rivendicata. Mi aspetto che questo sia più difficile da stabilire nel caso non ortogonale, ma il risultato è valido a prescindere.

Guarda di nuovo (2) e vedrai che manca ancora . Per ottenere un valore ottimale, è possibile utilizzare la convalida incrociata o guardare la traccia della cresta. Quest'ultimo metodo prevede la costruzione di una sequenza di in (0,1) e la visualizzazione di come cambiano le stime. Quindi selezionare che li stabilizza. Questo metodo è stato suggerito nel secondo dei riferimenti seguenti ed è il più antico.λλλ

Riferimenti

Hoerl, Arthur E. e Robert W. Kennard. "Regressione della cresta: stima distorta per problemi non ortogonali." Technometrics 12.1 (1970): 55-67.

Hoerl, Arthur E. e Robert W. Kennard. "Regressione della cresta: applicazioni a problemi non ortogonali." Technometrics 12.1 (1970): 69-82.


2
La regressione di @Minaj Ridge ha un restringimento costante per tutti i coefficienti (tranne l'intercettazione). Ecco perché esiste un solo moltiplicatore.
JohnK,

2
@amoeba Questo è un suggerimento di Hoerl e Kennard, le persone che hanno introdotto la regressione della cresta negli anni '70. In base alla loro esperienza - e alla mia - i coefficienti si stabilizzeranno in quell'intervallo anche con gradi estremi di multicollinearità. Naturalmente, questa è una strategia empirica e quindi non è garantito che funzioni sempre.
JohnK,

2
Potresti anche semplicemente fare il metodo della pseudo-osservazione e ottenere le stime con niente di più complicato di un programma di regressione ai minimi quadrati. Puoi anche studiare l'effetto della modifica di in modo simile. λ
Glen_b

2
@amoeba È vero che la cresta non è invariante per la scala, ecco perché è pratica comune standardizzare i dati in anticipo. Ho incluso i riferimenti pertinenti nel caso in cui si desidera dare un'occhiata. Sono immensamente interessanti e non così tecnici.
JohnK,

2
@JohnK in effetti la regressione della cresta riduce ogni di una quantità diversa, quindi il restringimento non è costante anche se esiste un solo parametro di restringimento . βλ
Frank Harrell,

4

Il mio libro Regressione Modeling Strategies approfondisce l'uso dell'AIC efficace per la scelta di . Ciò deriva dalla probabilità logaritmica penalizzata e dagli effettivi gradi di libertà, quest'ultimo essendo una funzione di quante variazioni di sono ridotte dalla penalizzazione. Una presentazione su questo è qui . Il pacchetto R trova che ottimizza l'AIC efficace e consente anche parametri multipli di penalità (ad esempio, uno per gli effetti principali lineari, uno per gli effetti principali non lineari, uno per gli effetti di interazione lineare e uno per gli effetti di interazione non lineare).λβ^rmspentraceλ


1
+1. Cosa ne pensi dell'utilizzo dell'errore CV di tipo "one-out-out", calcolato tramite la formula esplicita (ovvero senza eseguire effettivamente il CV), per scegliere ? Hai idea di come in pratica sia paragonabile a "AIC efficace"? λ
ameba dice di reintegrare Monica il

Non l'ho studiato. LOOCV richiede molti calcoli.
Frank Harrell,

Non se viene utilizzata la formula esplicita: stats.stackexchange.com/questions/32542 .
ameba dice di reintegrare Monica il

1
Tale formula funziona per il caso speciale di OLS, non per la massima probabilità in generale. Ma esiste una formula approssimativa che utilizza i punteggi residui. Mi rendo conto che stiamo parlando principalmente di OLS in questa discussione.
Frank Harrell,

1

Non lo faccio analiticamente, ma piuttosto numericamente. Di solito complotto RMSE vs. λ come tale:

enter image description here

Figura 1. RMSE e la costante λ o alfa.


Questo significa che si fissa un certo valore di e quindi si differenzia l'espressione per trovare i β j dopo i quali si calcola RMSE e si ripete il processo da capo per i nuovi valori di λ ? λβjλ
Minaj,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.