Risposte:
È sufficiente modificare la funzione di perdita aggiungendo la penalità. In termini di matrice, la funzione di perdita quadratica iniziale diventa
Costruiamo su ciò che sappiamo, ovvero che ogni volta che la matrice del modello è , la risposta -vector è e il parametro -vector è , la funzione obiettivoX n y p β
(che è la somma dei quadrati dei residui) viene minimizzata quando risolve le equazioni normali
La regressione della cresta aggiunge un altro termine alla funzione obiettivo (di solito dopo aver standardizzato tutte le variabili per metterle su una base comune), chiedendo di minimizzare
per alcune costanti non negative . È la somma dei quadrati dei residui più un multiplo della somma dei quadrati dei coefficienti stessi (rendendo evidente che ha un minimo globale). Poiché , ha una radice quadrata positiva .λ ≥ 0 ν 2 = λ
Considera la matrice aumentata con righe corrispondenti a volte la matrice di identità :ν p × p I
Quando il vettore viene similmente estesa con zeri alla fine per , il prodotto matrice nella funzione obiettivo aggiunge ulteriori termini della forma all'obiettivo originale. Perciòp y ∗ p ( 0 - ν β i ) 2 = λ β 2 i
Dalla forma dell'espressione della mano sinistra è immediato che le equazioni normali siano
Poiché abbiamo annesso zeri alla fine di , il lato destro è uguale a . Sul lato sinistro è aggiunto a quello originale . Pertanto le nuove equazioni normali si semplificanoX ′ y ν 2 I = λ I X ′ X
Oltre ad essere concettualmente economico - non sono necessarie nuove manipolazioni per ottenere questo risultato - è anche computazionalmente economico: il tuo software per fare i minimi quadrati ordinari farà anche regressione cresta senza alcun cambiamento. (Tuttavia, può essere utile in grossi problemi usare software progettato per questo scopo, perché sfrutterà la struttura speciale di per ottenere risultati efficienti per un intervallo densamente spaziato di , permettendoti di esplorare come variano le risposte con .) λ λ
Un'altra bellezza di questo modo di vedere le cose è come può aiutarci a capire la regressione della cresta. Quando vogliamo capire veramente la regressione, aiuta quasi sempre a pensarci bene geometricamente: le colonne di costituiscono vettori in un vero e proprio spazio vettoriale di dimensione . Adiacente a , prolungandoli così da -vettori a -vettori, stiamo incorporando in uno spazio più ampio includendo direzioni "immaginarie", reciprocamente ortogonali. La prima colonna dip n ν I X n n + p R n R n + p p X ν p p th ν ν p ν 0viene dato un piccolo componente immaginario di size , allungandolo in tal modo e spostandolo dallo spazio generato dalle colonne originali . Le colonne secondo, terzo, ..., sono analogamente allungate e spostate dallo spazio originale della stessa quantità - ma tutte in nuove direzioni diverse. Di conseguenza, qualsiasi collinearità presente nelle colonne originali verrà immediatamente risolta. Inoltre, il più grande diventa, più questi nuovi vettori avvicinano l'individuodirezioni immaginarie: diventano sempre più ortonormali. Di conseguenza, la soluzione delle equazioni normali diventerà immediatamente possibile e diventerà rapidamente numericamente stabile all'aumentare di da .
Questa descrizione del processo suggerisce alcuni approcci innovativi e creativi per affrontare i problemi che Ridge Regressione è stato progettato per gestire. Ad esempio, usando qualsiasi mezzo (come la decomposizione della varianza descritta da Belsley, Kuh e Welsch nel loro libro del 1980 su Regressione Diagnostics , Capitolo 3), potresti essere in grado di identificare sottogruppi di colonne quasi collineari di , dove ogni sottogruppo è quasi ortogonale a tutti gli altri. Hai solo bisogno adjoin tante righe per (e zero per ) in quanto non vi sono elementi nel gruppo più numeroso, dedicando una nuova dimensione "immaginario" per spostare ogni elemento di un gruppo di distanza dai suoi fratelli: non è necessario immaginaria dimensioni per farlo.X y p
Di recente mi sono imbattuto nella stessa domanda nel contesto di P-Splines e poiché il concetto è lo stesso, voglio dare una risposta più dettagliata sulla derivazione dello stimatore della cresta.
Iniziamo con una funzione di criterio penalizzata che differisce dalla classica funzione di criterio OLS per il suo termine di penalizzazione nell'ultimo summand:
dove
Possiamo riscrivere questo criterio in notazione a matrice e scomporlo ulteriormente:
I con essendo la matrice identità
Ora cerchiamo la che minimizza il nostro criterio. Tra gli altri utilizziamo la regola di differenziazione della matrice che possiamo applica qui come : ∂ x T A x(XTX+λI)∈Rn×n
Ci sono alcune cose importanti che mancano nelle risposte fornite.
La soluzione per deriva dalla condizione necessaria del primo ordine: che produce . Ma è sufficiente? Cioè, la soluzione è un minimo globale solo se è strettamente convesso. Questo può essere dimostrato essere vero.
Un altro modo di esaminare il problema è vedere l'equivalenza tra e vincolato a . OLS è l'acronimo di Ordinary Least Squares. Da questa prospettiva è solo la funzione lagrangiana utilizzata per trovare i minimi globali della funzione dell'obiettivo convesso vincolata alla funzione convessa .
Una buona spiegazione di questi punti e la derivazione di possono trovare in queste belle note di lezione: http://math.bu.edu/people/cgineste/classes/ma575/p/w14_1.pdf