Perché la regressione della cresta si chiama "cresta", perché è necessaria e cosa succede quando va all'infinito?


71

Stima del coefficiente di regressione della cresta sono i valori che minimizzano il valoreβ^R

RSS+λj=1pβj2.

Le mie domande sono:

  1. Se , allora vediamo che l'espressione sopra si riduce al solito RSS. E se ? Non capisco la spiegazione da manuale del comportamento dei coefficienti.λ=0λ

  2. Per aiutare a comprendere il concetto alla base di un termine particolare, perché il termine si chiama Regressione RIDGE? (Perché la cresta?) E cosa potrebbe esserci di sbagliato nella solita / comune regressione che è necessario introdurre un nuovo concetto chiamato regressione della cresta?

Le tue intuizioni sarebbero fantastiche.

Risposte:


89

Dato che chiedi approfondimenti , prenderò un approccio abbastanza intuitivo piuttosto che un approccio più matematico:

  1. Seguendo i concetti nella mia risposta qui , possiamo formulare una regressione della cresta come regressione con dati fittizi aggiungendo osservazioni (nella tua formulazione), dove , e per . Se scrivi il nuovo RSS per questo set di dati espanso, vedrai che le osservazioni aggiuntive aggiungono ciascuna un termine del modulo , quindi il nuovo RSS è l'originale - e minimizzare l'RSS su questo nuovo set di dati espansi a minimizzare il criterio di regressione della cresta.pyn+j=0xj,n+j=λxi,n+j=0ij(0λβj)2=λβj2RSS+λj=1pβj2

    Quindi cosa possiamo vedere qui? All'aumentare di , i -row aggiuntivi hanno ciascuno un componente che aumenta e quindi aumenta anche l'influenza di questi punti. Tirano verso se stessi l'iperpiano montato. Quindi quando e i componenti corrispondenti di 's vanno all'infinito, tutti i coefficienti coinvolti "si appiattiscono" a .λxλx0

    Cioè, come , la penalità dominerà la minimizzazione, quindi la s andrà a zero. Se l'intercettazione non è penalizzata (il solito caso), il modello si restringe sempre più verso la media della risposta.λβ

  2. Darò un'idea intuitiva del perché prima stiamo parlando di creste (il che suggerisce anche perché è necessario), quindi affronteremo un po 'di storia. Il primo è adattato dalla mia risposta qui :

    Se c'è multicollinearità, ottieni una "cresta" nella funzione di verosimiglianza (la verosimiglianza è una funzione di 's). Questo a sua volta produce una lunga "valle" nell'RSS (poiché RSS = ).β2logL

    La regressione della cresta "ripara" la cresta - aggiunge una penalità che trasforma la cresta in un bel picco nello spazio di probabilità, equivalentemente una bella depressione nel criterio che stiamo minimizzando:

    la cresta in LS viene trasformata in un picco nella regressione della cresta
    [ Immagine più chiara ]

    La vera storia dietro il nome è un po 'più complicata. Nel 1959 AE Hoerl [1] introdusse l' analisi della cresta per la metodologia della superficie di risposta, e molto presto [2] si adattò al trattamento della multicollinearità nella regressione ("regressione della cresta"). Vedi ad esempio, la discussione di RW Hoerl in [3], in cui descrive l'uso di Hoerl (AE non RW) dei grafici di contorno della superficie di risposta * nell'identificazione di dove dirigersi per trovare optima locale (dove uno si dirige verso cresta'). Nei problemi mal condizionati, si pone il problema di una cresta molto lunga e le intuizioni e la metodologia dell'analisi della cresta sono adattate al problema correlato con la probabilità / RSS in regressione, producendo regressione della cresta.

* esempi di grafici di contorno della superficie di risposta (nel caso di risposta quadratica) sono disponibili qui (Fig. 3.9-3.12).

Cioè, "cresta" in realtà si riferisce alle caratteristiche della funzione che stavamo tentando di ottimizzare, piuttosto che aggiungere una "cresta" (+ ve diagonale) alla matrice (quindi mentre la regressione della cresta si aggiunge alla diagonale, non è per questo che la chiamiamo regressione 'cresta').XTX

Per alcune informazioni aggiuntive sulla necessità di regressione della cresta, consultare il primo collegamento nella voce di elenco 2. sopra.


Riferimenti:

[1]: Hoerl, AE (1959). Soluzione ottimale di molte equazioni di variabili. Progresso dell'ingegneria chimica , 55 (11) 69-78.

[2]: Hoerl, AE (1962). Applicazioni dell'analisi della cresta ai problemi di regressione. Progresso dell'ingegneria chimica , 58 (3) 54-59.

[3] Hoerl, RW (1985). Analisi della cresta 25 anni dopo. Statistico americano , 39 (3), 186-192


2
Questo è estremamente utile. Sì, quando chiedevo approfondimenti, cercavo l'intuizione. Ovviamente la matematica è importante, ma stavo anche cercando spiegazioni concettuali, perché ci sono alcune parti in cui la matematica era appena oltre me. Grazie ancora.
cgo

Perché hai la parola "ponderata" nel punto 1 del punto elenco?
ameba dice Reinstate Monica il

1
È una buona domanda; non è necessario che sia ponderato a meno che non sia stata ponderata la regressione originale. Ho rimosso l'aggettivo. È anche possibile scriverlo come una regressione ponderata (che se si sta già eseguendo una regressione ponderata potrebbe essere leggermente più facile da gestire).
Glen_b,

36
  1. Se nostro termine di penalità sarà infinito per qualsiasi diverso da , quindi questo è quello che otterremo. Non esiste altro vettore che ci dia un valore finito della funzione obiettivo.λββ=0

(Aggiornamento: vedere la risposta di Glen_b. Questo non è il motivo storico corretto!)

  1. Questo deriva dalla soluzione di regressione della cresta in notazione matriciale. La soluzione risulta essere Il termine aggiunge una "cresta" alla diagonale principale e garantisce che la matrice risultante sia invertibile. Ciò significa che, a differenza di OLS, avremo sempre una soluzione.
    β^=(XTX+λI)1XTY.
    λI

La regressione della cresta è utile quando i predittori sono correlati. In questo caso OLS può dare risultati selvaggi con enormi coefficienti, ma se vengono penalizzati possiamo ottenere risultati molto più ragionevoli. In generale, un grande vantaggio per ridurre la regressione è che la soluzione esiste sempre, come menzionato sopra. Questo vale anche nel caso in cui , per il quale OLS non è in grado di fornire una soluzione (unica).n<p

La regressione della cresta è anche il risultato quando un precedente normale viene messo sul vettore .β

Ecco la versione bayesiana sulla regressione della cresta: supponiamo che il nostro precedente per sia . Quindi perché [per ipotesi] abbiamo che ββN(0,σ2λIp)(Y|X,β)N(Xβ,σ2In)

π(β|y)π(β)f(y|β)

1(σ2/λ)p/2exp(λ2σ2βTβ)×1(σ2)n/2exp(12σ2||yXβ||2)

exp(λ2σ2βTβ12σ2||yXβ||2).

Troviamo la modalità posteriore (potremmo guardare anche la media posteriore o altre cose, ma per questo esaminiamo la modalità, ovvero il valore più probabile). Questo significa che vogliamo che è equivalente a

maxβRp exp(λ2σ2βTβ12σ2||yXβ||2)

maxβRp λ2σ2βTβ12σ2||yXβ||2
perché è strettamente monotono e questo a sua volta è equivalente a log
minβRp||yXβ||2+λβTβ

che dovrebbe sembrare abbastanza familiare.

Quindi vediamo che se mettiamo un normale normale con media 0 e varianza sul nostro vettore , il valore di che massimizza il posteriore è lo stimatore della cresta. Si noti che questo considera più come parametro frequentista perché non esiste un precedente ma non è noto, quindi non è completamente bayesiano.σ2λββσ2

Modifica: hai chiesto informazioni sul caso in cui . Sappiamo che un iperpiano in è definito esattamente da punti . Se stiamo eseguendo una regressione lineare e , interpoliamo esattamente i nostri dati e otteniamo . Questa è una soluzione, ma è terribile: le nostre prestazioni sui dati futuri saranno probabilmente terrificanti. Supponiamo ora : non esiste più un iperpiano univoco definito da questi punti. Possiamo adattare una moltitudine di iperpiani, ciascuno con 0 somma residua di quadrati.n<pRppn=p||yXβ^||2=0n<p

Un esempio molto semplice: supponiamo che . Quindi avremo solo una linea tra questi due punti. Supponiamo ora ma . Immagina un aereo con questi due punti al suo interno. Possiamo ruotare questo piano senza cambiare il fatto che questi due punti sono in esso, quindi ci sono innumerevoli modelli tutti con un valore perfetto della nostra funzione oggettiva, quindi anche al di là del problema del sovradimensionamento non è chiaro quale scegliere.n=p=2n=2p=3

Come commento finale (suggerimento di @ gung), il LASSO (usando una penalità ) è comunemente usato per problemi di dimensioni elevate perché esegue automaticamente la selezione delle variabili (imposta alcuni ). Deliziosamente, risulta che LASSO equivale a trovare la modalità posteriore quando si usa un doppio esponenziale (alias Laplace) prima del vettore . Il LASSO ha anche alcune limitazioni, come la saturazione di predittori e non necessariamente la gestione di gruppi di predittori correlati in modo ideale, quindi la rete elastica (combinazione convessa di penalità e ) può essere messa in pratica.L1βj=0βnL1L2


1
(+1) La tua risposta potrebbe essere migliorata elaborando la connessione tra la Bayesiana e la regressione della cresta.
Ripristina Monica

1
Lo farà - digitandolo ora.
jld

4
OLS non riesce a trovare una soluzione unica quando perché la matrice di progettazione non è di rango massimo. Questa è una domanda molto comune; per favore cerca negli archivi una descrizione del perché questo non funziona. n<p
Ripristina Monica

2
@cgo: la spiegazione e il suggerimento di user777 di cui cercare sono validi, ma per completezza ho anche aggiunto una spiegazione (si spera) intuitiva.
jld

5
+1, bella risposta. In questo caso, potresti menzionare che il LASSO viene generalmente utilizzato in questo caso e che è strettamente correlato al RR.
gung - Ripristina Monica
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.