Sono un ingegnere informatico che impara l'apprendimento automatico, in particolare attraverso i corsi di apprendimento automatico di Andrew Ng . Mentre studiavo la regressione lineare con la regolarizzazione , ho trovato termini che confondono: Regressione con regolarizzazione L1 o regolarizzazione L2 LASSO Regressione della cresta Quindi le mie domande: La …
La regolarizzazione di Tikhonov e la regressione della cresta sono termini spesso usati come se fossero identici. È possibile specificare esattamente qual è la differenza?
Come si confrontano i metodi di regolarizzazione di ridge, LASSO ed elasticnet? Quali sono i loro rispettivi vantaggi e svantaggi? Sarebbe anche apprezzato qualsiasi buon documento tecnico o appunti di lezione.
Nota: so che L1 ha proprietà di selezione delle caratteristiche. Sto cercando di capire quale scegliere quando la selezione delle funzionalità è completamente irrilevante. Come decidere quale regolarizzazione (L1 o L2) usare? Quali sono i pro e i contro di ciascuna delle regolarizzazioni L1 / L2? Si consiglia di fare …
Sto usando glmnet per calcolare le stime di regressione della cresta. Ho ottenuto alcuni risultati che mi hanno fatto sospettare che glmnet stia davvero facendo quello che penso faccia. Per verificare questo ho scritto un semplice script R in cui comparo il risultato della regressione della cresta effettuata da risolvere …
Ho diverse domande riguardanti la penalità della cresta nel contesto dei minimi quadrati: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) L'espressione suggerisce che la matrice di covarianza di X è ridotta verso una matrice diagonale, il che significa che (supponendo che le variabili siano standardizzate prima della procedura) verrà ridotta …
Quindi mi è stata posta una domanda sulla stima delle misure centrali L1 (es. Lazo) e L2 (es. Regressione della cresta). La risposta è L1 = mediana e L2 = media. C'è qualche tipo di ragionamento intuitivo in questo? O deve essere determinato algebricamente? In tal caso, come posso fare …
Alcune funzioni e approssimazioni di penalità sono ben studiate, come il LASSO ( ) e il Ridge ( ) e come si confrontano nella regressione.L1L1L_1L2L2L_2 Ho letto della penalità Bridge, che è la penalità generalizzata . Confrontalo con il LASSO, che ha \ gamma = 1 , e il Ridge, …
Considera la regressione della cresta con un vincolo aggiuntivo che richiede che abbia la somma unitaria dei quadrati (equivalentemente, varianza unitaria); se necessario, si può presumere che abbia anche la somma unitaria dei quadrati:y^y^\hat{\mathbf y}yy\mathbf y β^∗λ=argmin{∥y−Xβ∥2+λ∥β∥2}s.t.∥Xβ∥2=1.β^λ∗=argmin{‖y−Xβ‖2+λ‖β‖2}s.t.‖Xβ‖2=1.\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1. Qual …
Supponiamo che stia provando a stimare un gran numero di parametri da alcuni dati ad alta dimensione, usando una sorta di stime regolarizzate. Il regolarizzatore introduce un certo pregiudizio nelle stime, ma può ancora essere un buon compromesso perché la riduzione della varianza dovrebbe più che compensare. Il problema si …
Per un modello lineare y=β0+xβ+εy=β0+xβ+εy=\beta_0+x\beta+\varepsilon , il termine di restringimento è sempre P(β)P(β)P(\beta) . Qual è la ragione per cui non restringiamo il termine bias (intercetta) β0β0\beta_0 ? Dovremmo ridurre il termine di distorsione nei modelli di rete neurale?
Considera il modello standard per la regressione multipla dove , quindi valgono la normalità, l'omosedasticità e la non correlazione degli errori.ε ∼ N ( 0 , σ 2 I n )Y= Xβ+ εY=Xβ+εY=X\beta+\varepsilonε ∼ N( 0 , σ2ion)ε∼N(0,σ2In)\varepsilon \sim \mathcal N(0, \sigma^2I_n) Supponiamo di eseguire una regressione della cresta, aggiungendo …
Ho capito come la regressione della cresta restringe geometricamente i coefficienti verso zero. Inoltre so come dimostrarlo nello speciale "caso ortonormale", ma sono confuso su come funziona nel caso generale tramite "decomposizione spettrale".
Sto usando il pacchetto R penalizzato per ottenere stime ridotte dei coefficienti per un set di dati in cui ho molti predittori e poca conoscenza di quali sono importanti. Dopo aver scelto i parametri di ottimizzazione L1 e L2 e sono soddisfatto dei miei coefficienti, esiste un modo statisticamente corretto …
Ricordo di aver letto da qualche parte sul web una connessione tra regressione della cresta (con ℓ2ℓ2\ell_2 regolarizzazione) e regressione della PCA: durante l'utilizzo della regressione ℓ2ℓ2\ell_2 regolata con iperparametro λλ\lambda , se λ→0λ→0\lambda \to 0 , la regressione equivale alla rimozione della variabile PC con il più piccolo autovalore. …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.