Come interpretare i risultati quando sia la cresta che il lazo funzionano separatamente ma producono coefficienti diversi


11

Sto eseguendo un modello di regressione sia con Lasso che con Ridge (per prevedere una variabile di esito discreto che varia da 0-5). Prima di eseguire il modello, utilizzo il SelectKBestmetodo di scikit-learnper ridurre il set di funzionalità da 250 a 25 . Senza una selezione iniziale delle caratteristiche, sia Lasso che Ridge raggiungono punteggi di precisione inferiori [che potrebbero essere dovuti alle dimensioni ridotte del campione, 600]. Inoltre, si noti che alcune funzionalità sono correlate.

Dopo aver eseguito il modello, osservo che la precisione della previsione è quasi la stessa con Lasso e Ridge. Tuttavia, quando controllo le prime 10 caratteristiche dopo averle ordinate in base al valore assoluto dei coefficienti, vedo che esiste al massimo una sovrapposizione di% 50.

Cioè, dato che a ciascun metodo è stata assegnata una diversa importanza delle caratteristiche, potrei avere un'interpretazione completamente diversa basata sul modello che scelgo.

Normalmente, le funzionalità rappresentano alcuni aspetti del comportamento dell'utente in un sito Web. Pertanto, voglio spiegare i risultati evidenziando le funzionalità (comportamenti dell'utente) con una maggiore capacità predittiva rispetto a caratteristiche più deboli (comportamenti dell'utente). Tuttavia, non so come andare avanti a questo punto. Come devo avvicinarmi all'interpretazione del modello? Ad esempio, dovrei combinare entrambi ed evidenziare quello sovrapposto, o dovrei andare con Lasso poiché fornisce più interpretabilità?


3
(+1) La regolarizzazione può essere vista come un peggioramento delle stime dei singoli coefficienti, migliorando al contempo le loro prestazioni collettive nel prevedere nuove risposte. Cosa stai esattamente cercando di ottenere con la tua interpretazione?
Scortchi - Ripristina Monica

1
@Scortchi grazie per la risposta. Ho aggiunto questoNormally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .
renakre

3
+1 AFAIK la relazione tra coefficienti di cresta e lambda non deve essere monotona, mentre in Lazo lo è. Pertanto, a determinati livelli di contrazione il valore assoluto dei coefficienti nella cresta e nel lazo può variare molto. Detto questo, apprezzerei se qualcuno potesse abbozzare una prova di questo o spiegarlo brevemente matematicamente
Łukasz Grad

Assicurati di ordinare i coefficienti "beta". Vedi stats.stackexchange.com/a/243439/70282 Puoi ottenerli allenandoti su variabili standardizzate o modificando in seguito come descritto nel link.
Chris

1
@ ŁukaszGrad I coefficienti LASSO non devono necessariamente essere funzioni monotoniche di se i predittori sono correlati; vedere la figura 6.6 dell'ISLR per un esempio. λ
EdM

Risposte:


7

La regressione della cresta incoraggia tutti i coefficienti a diventare piccoli. Il lazo incoraggia molti / molti [**] coefficienti a diventare zero e alcuni diversi da zero. Entrambi ridurranno l'accuratezza sul set di allenamento, ma miglioreranno in qualche modo la previsione:

  • la regressione della cresta tenta di migliorare la generalizzazione al set di test, riducendo l'overfit
  • il lazo ridurrà il numero di coefficienti diversi da zero, anche se ciò penalizzerebbe le prestazioni su entrambi i set di allenamento e test

Puoi ottenere diverse scelte di coefficienti se i tuoi dati sono altamente correlati. Quindi, potresti avere 5 funzioni correlate:

  • assegnando coefficienti piccoli ma diversi da zero a tutte queste caratteristiche, la regressione della cresta può portare a una perdita ridotta sul set di allenamento, che potrebbe plausibilmente generalizzare al set di test
  • Lazo potrebbe scegliere solo uno di questi, che si correla bene con gli altri quattro. e non c'è motivo per cui debba scegliere la funzione con il coefficiente più alto nella versione di regressione della cresta

[*] per una definizione di significato 'scegli': assegna un coefficiente diverso da zero, che è ancora un po 'agitando la mano, poiché i coefficienti di regressione della cresta tenderanno ad essere tutti diversi da zero, ma alcuni potrebbero essere come 1e-8 e altri potrebbero essere ad es. 0,01

[**] nuance: come Richard Hardy sottolinea, per alcuni casi d'uso, può essere scelto un valore di che comporterà che tutti i coefficienti LASSO saranno diversi da zero, ma con un certo restringimentoλ


Buoni suggerimenti. Un buon controllo è quello di fare una matrice di correlazione. Le variabili non sovrapposte possono essere altamente correlate.
Chris

3
Buona risposta! Tuttavia, non sono sicuro che sia giusto suggerire che la cresta tenti universalmente di ostacolare le prestazioni del test senza dire lo stesso per il lazo. Ad esempio, se il modello vero è scarso (e nel sottoinsieme dei nostri predittori), possiamo immediatamente aspettarci che il lazo abbia prestazioni di prova migliori rispetto alla cresta
user795305

Questo è il principio della "scommessa sulla scarsità". Ad esempio, vedi la prima trama qui: faculty.bscb.cornell.edu/~bien/simulator_vignettes/lasso.html
user795305

2
Confronti di scelte variabili (LASSO) e coefficienti di regressione tra più campioni bootstrap dei dati possono illustrare bene questi problemi. Con predittori correlati, quelli scelti da LASSO da diversi bootstrap possono essere abbastanza diversi pur fornendo prestazioni predittive simili. Idealmente, l'intero processo di creazione del modello, inclusa la riduzione iniziale del set di funzionalità, dovrebbe essere ripetuto su più bootstrap per documentare la qualità del processo.
EdM

scegliendo 4 di queste caratteristiche, con coefficienti bassi, o anche tutte, sempre con coefficienti piccoli, ma diversi da zero, la regressione della cresta può ridurre le perdite sul set di allenamento - la regressione della cresta non sceglie le variabili. Inoltre, per valori bassi di , il lazo sceglierà tutte le variabili ma farà un certo restringimento, proprio come la cresta. λ
Richard Hardy,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.