Un metodo di regolarizzazione per i modelli di regressione che riduce i coefficienti verso zero, rendendone alcuni uguali a zero. Pertanto il lazo esegue la selezione delle funzioni.
Voglio usare la regressione Lasso o ridge per un modello con oltre 50.000 variabili. Voglio farlo utilizzando il pacchetto software in R. Come posso stimare il parametro di restringimento ( )?λλ\lambda modifiche: Ecco il punto in cui mi sono alzato: set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= …
La regolarizzazione della rete elastica è sempre preferita a Lasso & Ridge poiché sembra risolvere gli svantaggi di questi metodi? Qual è l'intuizione e qual è la matematica dietro la rete elastica?
Sono un ingegnere informatico che impara l'apprendimento automatico, in particolare attraverso i corsi di apprendimento automatico di Andrew Ng . Mentre studiavo la regressione lineare con la regolarizzazione , ho trovato termini che confondono: Regressione con regolarizzazione L1 o regolarizzazione L2 LASSO Regressione della cresta Quindi le mie domande: La …
Come si confrontano i metodi di regolarizzazione di ridge, LASSO ed elasticnet? Quali sono i loro rispettivi vantaggi e svantaggi? Sarebbe anche apprezzato qualsiasi buon documento tecnico o appunti di lezione.
È possibile calcolare i valori AIC o BIC per i modelli di regressione del lazo e altri modelli regolarizzati in cui i parametri entrano solo parzialmente nell'equazione. Come si determinano i gradi di libertà? Sto usando R per adattare i modelli di regressione del lazo con la glmnet()funzione del glmnetpacchetto …
Nota: so che L1 ha proprietà di selezione delle caratteristiche. Sto cercando di capire quale scegliere quando la selezione delle funzionalità è completamente irrilevante. Come decidere quale regolarizzazione (L1 o L2) usare? Quali sono i pro e i contro di ciascuna delle regolarizzazioni L1 / L2? Si consiglia di fare …
Per LASSO (e altre procedure di selezione dei modelli) è fondamentale ridimensionare i predittori. La raccomandazione generale che seguo è semplicemente quella di utilizzare una media di 0, 1 normalizzazione di deviazione standard per variabili continue. Ma cosa c'è da fare con i manichini? Ad esempio alcuni esempi applicati della …
Uso la funzione auto.arima () nel pacchetto di previsione per adattarsi ai modelli ARMAX con una varietà di covariate. Tuttavia, ho spesso un gran numero di variabili tra cui scegliere e di solito finisco con un modello finale che funziona con un sottoinsieme di esse. Non mi piacciono le tecniche …
βlasso=argminβ∥y−Xβ∥22+α∥β∥1βlasso=argminβ‖y−Xβ‖22+α‖β‖1\beta^{\text{lasso}}= \operatorname*{argmin}_\beta \| y-X\beta\|^2_2 + \alpha \| \beta\|_1βlassoj=sgn(βLSj)(|βLSj|−α)+βjlasso=sgn(βjLS)(|βjLS|−α)+ \beta_j^{\text{lasso}}= \mathrm{sgn}(\beta^{\text{LS}}_j)(|\beta_j^{\text{LS}}|-\alpha)^+ XXX Tuttavia non capisco perché non esiste una soluzione a forma chiusa in generale. Usando le sottodifferenziali ho ottenuto quanto segue. ( XXX è una matrice n×pn×pn \times p ) f(β)=∥y−Xβ∥22+α∥β∥1f(β)=‖y−Xβ‖22+α‖β‖1f(\beta)=\|{y-X\beta}\|_2^2 + \alpha\|{\beta}\|_1 =∑i=1n(yi−Xiβ)2+α∑j=1p|βj|=∑i=1n(yi−Xiβ)2+α∑j=1p|βj| =\sum_{i=1}^n (y_i-X_i\beta)^2 + \alpha \sum_{j=1}^p |\beta_j| …
Ho letto tre motivi principali per standardizzare le variabili prima di qualcosa come la Lassoregressione: 1) Interpretazione dei coefficienti. 2) Capacità di classificare l'importanza del coefficiente in base all'entità relativa delle stime del coefficiente post-restringimento. 3) Non è necessario intercettare. Ma mi chiedo il punto più importante. Abbiamo motivo di …
Quando uso GAM, mi dà DF residuo è (ultima riga nel codice). Cosa significa? Andando oltre l'esempio GAM, in generale, il numero di gradi di libertà può essere un numero non intero?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …
Ho letto in numerosi riferimenti che la stima del lazo per il vettore di parametro di regressione è equivalente al modo posteriore di in cui la distribuzione precedente per ciascun è una doppia distribuzione esponenziale (nota anche come distribuzione di Laplace).BBBBBBBiBiB_i Ho cercato di dimostrarlo, qualcuno può approfondire i dettagli?
Una volta ho sentito un metodo per usare due volte il lazo (come un doppio lazo) in cui esegui il lazo sull'insieme originale di variabili, ad esempio S1, ottieni un insieme sparso chiamato S2, quindi esegui nuovamente il lazo sull'insieme S2 per ottenere l'insieme S3 . C'è un termine metodologico …
Per regressione Lazo supponiamo che la soluzione migliore (ad esempio un errore minimo di test) selezioni funzioni, in modo che \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.