Interpretazione geometrica della regressione lineare penalizzata


26

So che la regressione lineare può essere pensata come "la linea che è verticalmente più vicina a tutti i punti" :

inserisci qui la descrizione dell'immagine

Ma c'è un altro modo di vederlo, visualizzando lo spazio delle colonne, come "la proiezione sullo spazio attraversato dalle colonne della matrice dei coefficienti" :

inserisci qui la descrizione dell'immagine

La mia domanda è: in queste due interpretazioni, cosa succede quando utilizziamo la regressione lineare penalizzata, come la regressione della cresta e LASSO ? Cosa succede con la linea nella prima interpretazione? E cosa succede con la proiezione nella seconda interpretazione?

AGGIORNAMENTO: @JohnSmith nei commenti ha sollevato il fatto che la penalità si verifica nello spazio dei coefficienti. C'è un'interpretazione anche in questo spazio?


1
Non sono sicuro che sia possibile trovare una simile interpretazione. Semplicemente perché ciò che hai fornito sono immagini nello spazio originale di funzionalità e risposte. E la regressione penalizzata coinvolge lo spazio dei coefficienti, che è molto diverso.
Dmitry Laptev,

"la linea verticalmente più vicina a tutti i punti"? Uno di solito prende la somma dei quadrati - vedi la bella foto su Wikipedia Coefficiente_di_determinazione . La somma delle distanze verticali è la norma L1, che è meno sensibile ai valori anomali ma molto meno comune.
denis,

Risposte:


21

Scusami per le mie capacità pittoriche, proverò a darti la seguente intuizione.

f(β)ββ1β2

C'è un minimo di questa funzione, nel mezzo dei cerchi rossi. E questo minimo ci offre la soluzione non penalizzata.

g(β)g(β)=λ(|β1|+|β2|)g(β)=λ(β12+β22)λλg(x)

f(β)+g(β)

Regressione di LASSO e Ridge

La penalità maggiore, i contorni blu "più stretti" che otteniamo, e quindi i grafici si incontrano in un punto più vicino allo zero. Un viceversa: minore è la penalità, i contorni si espandono e l'intersezione dei grafici blu e rosso si avvicina al centro del cerchio rosso (soluzione non penalizzata).

β1=0β2=0

0

Spero che questo spiegherà alcune intuizioni su come funziona la regressione penalizzata nello spazio dei parametri.


Penso che iniziare con una foto classica, come hai fatto, sia un buon inizio. Per capirlo davvero , penso che sarebbe utile descrivere come i contorni si collegano al problema. In particolare, sappiamo in entrambi i casi che minore sarà la nostra penalità, più ci avvicineremo alla soluzione OLS e più grande diventerà, più ci avvicineremo a un modello di pura intercettazione. Una domanda da porsi è: come si manifesta nella tua figura?
cardinale il

A proposito, le tue abilità pittoriche sembrano perfette.
cardinale il

Grazie per il tuo commento! Qui tutto è intuitivamente semplice: la penalità più grande, i contorni blu "più stretti" che otteniamo (e quindi il punto in cui due grafici si incontrano si avvicinano allo zero). Un viceversa: minore è la penalità: più vicino al centro del cerchio rosso si incontreranno le trame (OLS).
Dmitry Laptev,

2
g(x)λ

1
Grazie per l'illustrazione chiara. Ho letto altrove che la somma minima degli obiettivi si verifica laddove sono tangenti tra loro. Capisco che se f (\ beta) '= -g (\ beta)' significherebbe che la derivata della somma è zero, che è un requisito per un estremo. È questo che si intende qui "quando due grafici di contorno si incontrano"?
odedbd,

3

L'intuizione che ho è la seguente: nel caso dei minimi quadrati, la matrice del cappello è una proiezione ortogonale quindi idempotente. Nel caso penalizzato, la matrice del cappello non è più idempotente. In realtà, applicandolo infinitamente più volte, i coefficienti si ridurranno all'origine. D'altra parte, i coefficienti devono ancora trovarsi nell'intervallo dei predittori, quindi è ancora una proiezione, sebbene non ortogonale. L'entità del fattore penalizzante e il tipo di norma controllano la distanza e la direzione del restringimento verso l'origine.


1
Non riesco a capire perché non sia idempotente: se proietto il vettore nello spazio (anche se non è una proiezione ortogonale) e metto un vincolo nei coefficienti, perché una nuova proiezione di questo vettore proiettato sarebbe diversa dalla precedente uno?
Lucas Reis,

1
Intuitivamente: supponi di ridurre al minimo la somma dei quadrati penalizzata una seconda volta. La somma dei quadrati alla seconda minimizzazione è inferiore alla somma dei quadrati della prima minimizzazione. L'importanza relativa della norma dei coefficienti penalizzati aumenterà, vale a dire che c'è ancora molto da guadagnare restringendo ulteriormente i coefficienti. La regressione della cresta è un buon esempio in cui hai una bella forma chiusa per la matrice del cappello e puoi verificare direttamente se è idempotente.
JohnRos
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.