Quali sono gli svantaggi dell'utilizzo del lazo per la selezione delle variabili per la regressione?


60

Da quello che so, l'uso del lazo per la selezione delle variabili gestisce il problema degli input correlati. Inoltre, poiché equivale alla regressione del minimo angolo, non è lento dal punto di vista computazionale. Tuttavia, molte persone (ad esempio persone che conosco facendo bio-statistiche) sembrano ancora favorire la selezione di variabili graduali o graduali. Ci sono degli svantaggi pratici nell'usare il lazo che lo rende sfavorevole?


9
Non so dove hai sentito che Lasso affronta il problema della collinearità, non è assolutamente vero.
Macro

3
Il ferro di cavallo prima è meglio di LASSO per la selezione del modello - almeno nel caso del modello sparso (dove la selezione del modello è la più utile). Puoi trovare una discussione di questi punti in questo link . Due degli autori di questo articolo hanno anche ottenuto un articolo simile negli incontri di Valencia, Bayesian Statistics 9 "Shrink Globally Act Locally: Sparse regolarizzazione e previsione bayesiana". L'articolo di Valencia fornisce ulteriori dettagli su un sistema di sanzioni.
Probislogic

9
Se sei interessato solo alla previsione, la selezione del modello non aiuta e di solito fa male (al contrario di una penalità quadratica = norma L2 = regressione della cresta senza selezione variabile). LASSO paga un prezzo nella discriminazione predittiva per aver tentato di fare una selezione variabile.
Frank Harrell,

3
Lanciare una moneta per prendere una decisione arbitraria spesso rivela che ti interessa davvero il risultato. Qualsiasi metodo che offre di prendere decisioni in merito alla selezione dei predittori spesso rende evidente che si hanno idee su quali predittori appartengono più naturalmente al modello, idee che non si desidera ignorare. LASSO può funzionare così.
Nick Cox,

5
Secondo: @Nick: "nessuna teoria disponibile per guidare la selezione dei modelli" non è quasi mai realistica. Il buon senso è la teoria.
Scortchi - Ripristina Monica

Risposte:


29

Non c'è motivo di fare una selezione graduale. È solo sbagliato.

LASSO / LAR sono i migliori metodi automatici. Ma sono metodi automatici. Lasciano che l'analista non pensi.

In molte analisi, alcune variabili dovrebbero essere nel modello SENZA PREVISTO di qualsiasi misura di significato. A volte sono necessarie variabili di controllo. Altre volte, trovare un piccolo effetto può essere sostanzialmente importante.


43
"Non c'è motivo di fare una selezione graduale. È semplicemente sbagliato." - Quasi mai affermazioni incredibilmente ampie del genere, prive di contesto, buone pratiche statistiche. Se qualcosa qui è "solo sbagliato", è la dichiarazione in grassetto sopra. Se la tua analisi non enfatizza i valori o le stime dei parametri (ad es. Modelli predittivi), la selezione di variabili graduali può essere una cosa sensata da fare e in alcuni casi può :: gasp :: sovraperformare LASSO. (Peter, so che abbiamo già avuto questo convo in precedenza - questo commento è più diretto a un futuro lettore che potrebbe incontrare solo questo post e non l'altro). p
Macro

4
-1 a causa della critica generale di stepwise. Non è "solo sbagliato", ma ha un posto come una ricerca modello deterministica. Hai davvero un'ape nel tuo cofano sui metodi automatici.
Probislogic,

8
Yi=j=1100Xij+εi
εN(0,1)cor(Xij,Xik)=1/2(j,k)

10
Dovresti certamente indagare sulla collinearità prima di iniziare qualsiasi regressione. Direi che se hai un gran numero di variabili collineari non dovresti usare LASSO o Stepwise; dovresti risolvere il problema della collinearità (eliminare le variabili, ottenere più dati, ecc.) o utilizzare un metodo progettato per tali problemi (ad es. regressione della cresta)
Peter Flom - Ripristina Monica

5
OK, hai ragione ma non credo sia davvero rilevante. Né il lazo NOR all'indietro (né alcun metodo di selezione variabile) risolve tutti i problemi. Ci sono cose che devi fare prima di iniziare a modellare - e una di queste è verificare la collinearità. Inoltre, non mi importerebbe quale metodo di selezione delle variabili ha funzionato per altri set di dati che hanno violato le regole della regressione a cui entrambi i metodi dovrebbero applicarsi.
Peter Flom - Ripristina Monica

22

Se ti interessa solo l'errore di predizione e non ti preoccupi dell'interpretazione, dell'inferenza casuale, della semplicità del modello, dei test dei coefficienti, ecc., Perché vuoi ancora utilizzare il modello di regressione lineare?

È possibile utilizzare qualcosa come aumentare gli alberi delle decisioni o supportare la regressione vettoriale e ottenere una migliore qualità di previsione ed evitare comunque un eccesso di adattamento in entrambi i casi citati. Questo è Lazo potrebbe non essere la scelta migliore per ottenere la migliore qualità di previsione.

Se la mia comprensione è corretta, Lasso è destinato a situazioni in cui sei ancora interessato al modello stesso, non solo alle previsioni. Cioè - vedi le variabili selezionate e i loro coefficienti, interpretale in qualche modo ecc. E per questo - Lazo potrebbe non essere la scelta migliore in determinate situazioni come discusso in altre domande qui.


20

LASSO incoraggia la riduzione dei coefficienti a 0, vale a dire l'eliminazione di quelle variate dal modello. Al contrario, altre tecniche di regolarizzazione come una cresta tendono a mantenere tutte le varianze.

Quindi ti consiglio di pensare se questo calo ha senso per i tuoi dati. Ad esempio, prendere in considerazione la possibilità di istituire un test diagnostico clinico su dati di microarray genici o su dati spettroscopici vibrazionali.

  • Ti aspetteresti che alcuni geni trasportino informazioni rilevanti, ma molti altri geni sono solo rumori. la tua applicazione. Far cadere quei variati è un'idea perfettamente sensata.

  • Al contrario, i set di dati spettroscopici vibrazionali (pur avendo dimensioni simili rispetto ai dati dei microarray) tendono a "diffondere" le informazioni rilevanti su ampie parti dello spettro (correlazione). In questa situazione, chiedere alla regolarizzazione di eliminare i variati non è un approccio particolarmente sensato. Tanto più che altre tecniche di regolarizzazione come il PLS sono più adattate a questo tipo di dati.

The Elements of Statistical Learning offre una buona discussione di LASSO e lo contrappone ad altre tecniche di regolarizzazione.


14

Se due predittori sono altamente correlati, LASSO può finire per lasciarne uno piuttosto arbitrariamente. Questo non è molto utile quando vuoi fare previsioni per una popolazione in cui quei due predittori non sono altamente correlati, e forse un motivo per preferire la regressione della cresta in quelle circostanze.

Potresti anche pensare che la standardizzazione dei predittori (per dire quando i coefficienti sono "grandi" o "piccoli") piuttosto arbitraria ed essere perplessa (come me) su modi sensati di standardizzare i predittori categorici.


1
Grazie per questa risposta Conoscete articoli che discutono dei problemi con predittori / predittori categorici correlati?
Berk U.

2
Vale la pena aggiungere che esistono altri metodi di regressione penalizzati che tentano di alleviare tali problemi (come la rete elastica).
bdeonovic,

Per fare la selezione di variabili con variabili altamente collineari, la cresta adattativa iterativa (che approssima la regressione penalizzata di L0 e le implementazioni nel pacchetto l0ara) tende a dare il meglio, o penalità di L0L2, come implementata nel pacchetto di L0Learn, si comporta bene ...
Tom Wenseleers

9

Il lazo è utile solo se ti stai limitando a considerare modelli che sono lineari nei parametri da stimare. Detto in altro modo, il lazo non valuta se hai scelto la forma corretta della relazione tra le variabili indipendenti e dipendenti.

È plausibile che in un set di dati arbitrario possano esserci effetti non lineari, interattivi o polinomiali. Tuttavia, queste specifiche del modello alternativo saranno valutate solo se l'utente esegue tale analisi; il lazo non è un sostituto per farlo.

Per un semplice esempio di come ciò possa andare storto, si consideri un set di dati in cui intervalli disgiunti della variabile indipendente prediceranno valori alti e bassi alternati della variabile dipendente. Sarà difficile risolvere i problemi usando modelli lineari convenzionali, poiché non vi è alcun effetto lineare nelle variabili manifest presenti per l'analisi (ma alcune trasformazioni delle variabili manifest possono essere utili). Lasciato nella sua forma manifesta, il lazo concluderà erroneamente che questa caratteristica è estranea e azzera il suo coefficiente perché non esiste una relazione lineare . D'altra parte, poiché ci sono divisioni allineate agli assi nei dati, un modello basato su un albero come una foresta casuale probabilmente farà abbastanza bene.

inserisci qui la descrizione dell'immagine


5

Uno svantaggio pratico del lazo e di altre tecniche di regolarizzazione è trovare il coefficiente di regolarizzazione ottimale, lambda. L'uso della convalida incrociata per trovare questo valore può essere costoso quanto le tecniche di selezione graduale.


Cosa intendi con "costoso"?
mark999

4
Questa affermazione non è proprio vera. Se adotti la ricerca della griglia "warm start" come nel metodo glmnet, puoi calcolare l'intera griglia molto rapidamente.
Probislogic,

1
@probabilityislogic È vero, ho letto solo degli avviamenti a caldo dopo aver fatto il commento sopra. Cosa ne pensi di questo documento, che indica che gli avviamenti a caldo sono più lenti e talvolta meno efficaci della semplice convalida incrociata? users.cis.fiu.edu/~lzhen001/activities/KDD2011Program/docs/…
rm999

5
λ

5

Non sono un esperto di LASSO ma sono un esperto di serie storiche. Se si dispone di dati di serie temporali o di dati spaziali, eviterei studiosamente una soluzione basata su osservazioni indipendenti. Inoltre, se ci sono effetti deterministici sconosciuti che hanno distrutto i tuoi dati (cambiamenti di livello / andamenti del tempo, ecc.), LASSO sarebbe ancora meno un buon martello. In chiusura quando si hanno dati di serie temporali, spesso è necessario segmentare i dati di fronte a parametri o alla varianza degli errori che cambiano nel tempo.


1
LASSO può fornire buone prestazioni di previsione se applicato a modelli di serie temporali basati sulla regressione quali argressioni (AR), autoregressioni vettoriali (VAR) e modelli di correzione degli errori vettoriali (VECM). Ad esempio, cerca l' autoregressione del vettore lazo e troverai molti esempi nella letteratura accademica. Nella mia esperienza, l'uso di LASSO per i modelli VAR fissi offre prestazioni di previsione superiori rispetto a tutte le selezioni di sottogruppi o alla regolarizzazione delle creste, mentre la regolarizzazione delle creste batte LASSO per i modelli VAR integrati (a causa della multicollinearità, come da risposta di Scortchi).
Richard Hardy,

Quindi il fallimento di LASSO non è inerente alle serie temporali dei dati.
Richard Hardy,

3

Questa è già una domanda piuttosto vecchia, ma ritengo che nel frattempo la maggior parte delle risposte qui siano piuttosto obsolete (e quella che viene verificata come risposta corretta è chiaramente un errore).

In primo luogo, in termini di prestazioni ottimali di previsione, non è universalmente vero che LASSO sia sempre migliore di quello graduale. L'articolo "Confronti estesi della migliore selezione di sottogruppi, selezione progressiva in avanti e il lazo" di Hastie et al (2017) fornisce un ampio confronto di avanzamento graduale, LASSO e alcune varianti di LASSO come il rilassato LASSO e il miglior sottoinsieme, e loro mostra che a volte è meglio di LASSO. Una variante di LASSO però - rilassata LASSO - è stata quella che ha prodotto la massima precisione di previsione del modello nella più ampia gamma di circostanze. La conclusione su quale sia la migliore dipende molto da ciò che si considera meglio, ad esempio se si tratterebbe della massima precisione di previsione o della selezione del minor numero di variabili false positive.

C'è un intero zoo di metodi di apprendimento sparsi, la maggior parte dei quali sono migliori di LASSO. Es c'è di Meinhausen LASSO rilassato , LASSO adattivo e regressione SCAD e MCP penalizzata come implementato nel ncvregpacchetto, che hanno tutti meno bias di LASSO standard e quindi sono preferibile. Inoltre, se si è interessati alla soluzione più sparsa assoluta con le migliori prestazioni di predizione, allora L0 ha penalizzato la regressione (ovvero il miglior sottoinsieme, ovvero basato sulla penalizzazione del nr di coefficienti diversi da zero rispetto alla somma del valore assoluto dei coefficienti in LASSO) è migliore di LASSO, vedere ad esempio il l0arapacchetto che approssima i GLM penalizzati L0 usando una procedura di cresta adattativa iterativae che a differenza di LASSO funziona anche molto bene con variabili altamente collineari, e il L0Learnpacchetto , che può adattarsi ai modelli di regressione penalizzata L0 usando la discesa delle coordinate , potenzialmente in combinazione con una penalità L2 per regolarizzare la collinearità.

Quindi, per tornare alla tua domanda originale: perché non usare LASSO per la selezione delle variabili? :

(1) perché i coefficienti saranno fortemente distorti, il che è migliorato nella regressione penalizzata LASSO, MCP e SCAD, e risolto completamente nella regressione penalizzata L0 (che ha una proprietà oracolare completa, cioè può scegliere sia le variabili causali che riaccendere coefficienti imparziali, anche per p> n casi)

(2) perché tende a produrre molti più falsi positivi rispetto alla regressione penalizzata di L0 (nei miei test l0arafunziona meglio allora, ovvero cresta adattativa iterativa, seguita da L0Learn)

(3) perché non è in grado di gestire bene le variabili collineari (essenzialmente selezionerebbe casualmente una delle variabili collineari) - la cresta adattativa iterativa / l0arae le penalità L0L2 L0Learnsono molto più efficaci nel gestirla .

Naturalmente, in generale, dovrai comunque utilizzare la convalida incrociata per ottimizzare i parametri di regolarizzazione per ottenere prestazioni di previsione ottimali, ma non è un problema. E puoi anche fare un'inferenza dimensionale elevata sui tuoi parametri e calcolare intervalli di confidenza al 95% sui tuoi coefficienti se ti piace tramite il bootstrap non parametrico (anche tenendo conto dell'incertezza sulla selezione della regolarizzazione ottimale se esegui la convalida incrociata anche su ogni set di dati bootstrap , anche se poi diventa piuttosto lento).

Dal punto di vista computazionale LASSO non è più lento rispetto agli approcci graduali tra l'altro, certamente non se si utilizza un codice altamente ottimizzato che utilizza gli avviamenti a caldo per ottimizzare la regolarizzazione di LASSO (è possibile confrontarsi usando il fscomando per avanzare gradualmente e lassoper LASSO nel bestsubsetpacchetto). Il fatto che gli approcci graduali siano ancora popolari probabilmente ha a che fare con la convinzione errata di molti che si potrebbe semplicemente mantenere il modello finale e riportare i valori p associati - che in realtà non è una cosa corretta da fare, poiché ciò non lo fa tenere conto dell'incertezza introdotta dalla selezione del modello, risultando in valori p troppo ottimistici.

Spero che sia di aiuto?


0

Uno grande è la difficoltà di fare test di ipotesi. Non puoi facilmente capire quali variabili sono statisticamente significative con Lasso. Con la regressione graduale, è possibile eseguire test di ipotesi in una certa misura, se si è attenti al trattamento dei test multipli.


8
Direi che è un vantaggio, non uno svantaggio. Ti impedisce di fare qualcosa che probabilmente non dovresti fare.
Peter Flom - Ripristina Monica

@Peter: Perché? Suppongo che tu debba correggere correttamente per più test, ecc. In modo tale che i valori P ottenuti siano validi.
dsimcha,

10
non esiste davvero un modo per correggere correttamente i test multipli in modo graduale. Vedi, ad esempio, le strategie di modellazione della regressione di Harrell. Non c'è modo di conoscere la giusta correzione
Peter Flom - Reintegrare Monica

4
È vero che la difficoltà di fare test di ipotesi è un potenziale svantaggio di LASSO. Non è vero che questo è uno svantaggio rispetto alla regressione graduale graduale.
gung - Ripristina Monica

2
Bene, esiste il framework di inferenza selettiva (implementato nel pacchetto selectInference) per fare l'inferenza (post-selezione) per LASSO ... O per qualsiasi metodo di selezione variabile si potrebbe usare il bootstraping non parametrico per fare inferenza e ottenere intervalli di confidenza sulle stime dei parametri. ..
Tom Wenseleers il
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.