Supponiamo che io voglia stimare un gran numero di parametri e voglio penalizzarne alcuni perché credo che dovrebbero avere scarso effetto rispetto agli altri. Come faccio a decidere quale schema di penalizzazione utilizzare? Quando è più appropriata la regressione della cresta? Quando dovrei usare il lazo?
Sto leggendo i libri sulla regressione lineare. Ci sono alcune frasi sulla norma L1 e L2. Li conosco, ma non capisco perché la norma L1 per i modelli sparsi. Qualcuno può dare una spiegazione semplice?
In quali circostanze si dovrebbe considerare l'utilizzo di metodi di regolarizzazione (cresta, regressione del lasso o degli angoli minimi) anziché OLS? Nel caso in cui ciò aiuti a guidare la discussione, il mio interesse principale è il miglioramento della precisione predittiva.
Stima del coefficiente di regressione della cresta sono i valori che minimizzano il valoreβ^Rβ^R\hat{\beta}^R RSS+λ∑j=1pβ2j.RSS+λ∑j=1pβj2. \text{RSS} + \lambda \sum_{j=1}^p\beta_j^2. Le mie domande sono: Se , allora vediamo che l'espressione sopra si riduce al solito RSS. E se ? Non capisco la spiegazione da manuale del comportamento dei coefficienti.λ=0λ=0\lambda = 0λ→∞λ→∞\lambda …
Considera i seguenti tre fenomeni. Paradosso di Stein: dati alcuni dalla distribuzione normale multivariata in , la media campionaria non è un ottimo stimatore della media vera. Si può ottenere una stima con errore quadratico medio inferiore se si riducono tutte le coordinate della media campionaria verso zero [o verso …
Le festività natalizie mi hanno dato l'opportunità di rannicchiarsi vicino al fuoco con The Elements of Statistical Learning . Provenendo da una prospettiva econometrica (frequentista), ho difficoltà a cogliere gli usi dei metodi di contrazione come regressione della cresta, lazo e regressione dell'angolo minimo (LAR). In genere, sono interessato alle …
Comprendo che la stima della regressione della cresta è il ββ\beta che minimizza la somma residua del quadrato e una penalità sulla dimensione di ββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] Tuttavia, non capisco appieno il significato del fatto che differisce da aggiungendo solo …
Al fine di risolvere i problemi di selezione del modello, una serie di metodi (LASSO, regressione della cresta, ecc.) Ridurrà i coefficienti delle variabili predittive verso lo zero. Sto cercando una spiegazione intuitiva del perché questo migliora l'abilità predittiva. Se il vero effetto della variabile era in realtà molto grande, …
Considera un buon vecchio problema di regressione con predittori e dimensione del campione . La solita saggezza è che lo stimatore OLS si sovraccaricherà e sarà generalmente sovraperformato dallo stimatore della regressione della cresta:È standard utilizzare la convalida incrociata per trovare un parametro di regolarizzazione ottimale . Qui uso un …
Sto riscontrando alcuni problemi con la derivazione della soluzione per la regressione della cresta. Conosco la soluzione di regressione senza il termine di regolarizzazione: β= ( XTX)- 1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. Ma dopo aver aggiunto il termine L2 alla funzione di costo, come mai la soluzione diventaλ ∥ β∥22λ‖β‖22\lambda\|\beta\|_2^2 β= ( …
A pagina 223 in Un'introduzione all'apprendimento statistico , gli autori sintetizzano le differenze tra regressione della cresta e lazo. Forniscono un esempio (Figura 6.9) di quando "il lazo tende a sovraperformare la regressione della cresta in termini di distorsione, varianza e MSE". Capisco perché il lazo può essere desiderabile: si …
Quando si utilizza la convalida incrociata per effettuare la selezione del modello (come ad esempio la regolazione dell'iperparametro) e per valutare le prestazioni del modello migliore, è necessario utilizzare la convalida incrociata nidificata . L'anello esterno serve per valutare le prestazioni del modello e l'anello interno deve selezionare il modello …
Voglio usare la regressione Lasso o ridge per un modello con oltre 50.000 variabili. Voglio farlo utilizzando il pacchetto software in R. Come posso stimare il parametro di restringimento ( )?λλ\lambda modifiche: Ecco il punto in cui mi sono alzato: set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= …
La regolarizzazione della rete elastica è sempre preferita a Lasso & Ridge poiché sembra risolvere gli svantaggi di questi metodi? Qual è l'intuizione e qual è la matematica dietro la rete elastica?
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.