- Se nostro termine di penalità sarà infinito per qualsiasi diverso da , quindi questo è quello che otterremo. Non esiste altro vettore che ci dia un valore finito della funzione obiettivo.λ→∞ββ=0
(Aggiornamento: vedere la risposta di Glen_b. Questo non è il motivo storico corretto!)
- Questo deriva dalla soluzione di regressione della cresta in notazione matriciale. La soluzione risulta essere
Il termine aggiunge una "cresta" alla diagonale principale e garantisce che la matrice risultante sia invertibile. Ciò significa che, a differenza di OLS, avremo sempre una soluzione.
β^=(XTX+λI)−1XTY.
λI
La regressione della cresta è utile quando i predittori sono correlati. In questo caso OLS può dare risultati selvaggi con enormi coefficienti, ma se vengono penalizzati possiamo ottenere risultati molto più ragionevoli. In generale, un grande vantaggio per ridurre la regressione è che la soluzione esiste sempre, come menzionato sopra. Questo vale anche nel caso in cui , per il quale OLS non è in grado di fornire una soluzione (unica).n<p
La regressione della cresta è anche il risultato quando un precedente normale viene messo sul vettore .β
Ecco la versione bayesiana sulla regressione della cresta: supponiamo che il nostro precedente per sia . Quindi perché [per ipotesi] abbiamo che
ββ∼N(0,σ2λIp)(Y|X,β)∼N(Xβ,σ2In)
π(β|y)∝π(β)f(y|β)
∝1(σ2/λ)p/2exp(−λ2σ2βTβ)×1(σ2)n/2exp(−12σ2||y−Xβ||2)
∝exp(−λ2σ2βTβ−12σ2||y−Xβ||2).
Troviamo la modalità posteriore (potremmo guardare anche la media posteriore o altre cose, ma per questo esaminiamo la modalità, ovvero il valore più probabile). Questo significa che vogliamo
che è equivalente a
maxβ∈Rp exp(−λ2σ2βTβ−12σ2||y−Xβ||2)
maxβ∈Rp −λ2σ2βTβ−12σ2||y−Xβ||2
perché è strettamente monotono e questo a sua volta è equivalente a
logminβ∈Rp||y−Xβ||2+λβTβ
che dovrebbe sembrare abbastanza familiare.
Quindi vediamo che se mettiamo un normale normale con media 0 e varianza sul nostro vettore , il valore di che massimizza il posteriore è lo stimatore della cresta. Si noti che questo considera più come parametro frequentista perché non esiste un precedente ma non è noto, quindi non è completamente bayesiano.σ2λββσ2
Modifica: hai chiesto informazioni sul caso in cui . Sappiamo che un iperpiano in è definito esattamente da punti . Se stiamo eseguendo una regressione lineare e , interpoliamo esattamente i nostri dati e otteniamo . Questa è una soluzione, ma è terribile: le nostre prestazioni sui dati futuri saranno probabilmente terrificanti. Supponiamo ora : non esiste più un iperpiano univoco definito da questi punti. Possiamo adattare una moltitudine di iperpiani, ciascuno con 0 somma residua di quadrati.n<pRppn=p||y−Xβ^||2=0n<p
Un esempio molto semplice: supponiamo che . Quindi avremo solo una linea tra questi due punti. Supponiamo ora ma . Immagina un aereo con questi due punti al suo interno. Possiamo ruotare questo piano senza cambiare il fatto che questi due punti sono in esso, quindi ci sono innumerevoli modelli tutti con un valore perfetto della nostra funzione oggettiva, quindi anche al di là del problema del sovradimensionamento non è chiaro quale scegliere.n=p=2n=2p=3
Come commento finale (suggerimento di @ gung), il LASSO (usando una penalità ) è comunemente usato per problemi di dimensioni elevate perché esegue automaticamente la selezione delle variabili (imposta alcuni ). Deliziosamente, risulta che LASSO equivale a trovare la modalità posteriore quando si usa un doppio esponenziale (alias Laplace) prima del vettore . Il LASSO ha anche alcune limitazioni, come la saturazione di predittori e non necessariamente la gestione di gruppi di predittori correlati in modo ideale, quindi la rete elastica (combinazione convessa di penalità e ) può essere messa in pratica.L1βj=0βnL1L2