Inclusione di ulteriori vincoli (in genere una penalità per la complessità) nel processo di adattamento del modello. Utilizzato per prevenire un eccesso di adattamento / migliorare la precisione predittiva.
La carta elastica originale Zou & Hastie (2005) La regolarizzazione e la selezione delle variabili tramite la rete elastica hanno introdotto la funzione di perdita netta elastica per la regressione lineare (qui presumo che tutte le variabili siano centrate e ridimensionate in base alla varianza unitaria): ma l'ha definita "rete …
Quando introduco concetti ai miei studenti, trovo spesso divertente dire loro dove ha origine la terminologia ("regressione", ad esempio, è un termine con un'origine interessante). Non sono stato in grado di evidenziare la storia / il background del termine "regolarizzazione" in apprendimento statistico / automatico. Quindi, qual è l'origine del …
Ho letto in numerosi riferimenti che la stima del lazo per il vettore di parametro di regressione è equivalente al modo posteriore di in cui la distribuzione precedente per ciascun è una doppia distribuzione esponenziale (nota anche come distribuzione di Laplace).BBBBBBBiBiB_i Ho cercato di dimostrarlo, qualcuno può approfondire i dettagli?
Ho completato il corso di Machine Learning di Andrew Ng circa un anno fa e sto scrivendo la mia esplorazione di matematica al liceo sul funzionamento della regressione logistica e sulle tecniche per ottimizzare le prestazioni. Una di queste tecniche è, ovviamente, la regolarizzazione. Lo scopo della regolarizzazione è prevenire …
Una volta ho sentito un metodo per usare due volte il lazo (come un doppio lazo) in cui esegui il lazo sull'insieme originale di variabili, ad esempio S1, ottieni un insieme sparso chiamato S2, quindi esegui nuovamente il lazo sull'insieme S2 per ottenere l'insieme S3 . C'è un termine metodologico …
Per regressione Lazo supponiamo che la soluzione migliore (ad esempio un errore minimo di test) selezioni funzioni, in modo che \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ …
Supponiamo che io sono in esecuzione una regressione Y∼XY∼XY \sim X . Perché selezionando i componenti principali di di , il modello mantiene il suo potere predittivo su ?kkkXXXYYY Capisco che dal punto di vista della riduzione di dimensionalità / selezione delle caratteristiche, se sono gli autovettori della matrice di …
Ho diverse domande riguardanti la penalità della cresta nel contesto dei minimi quadrati: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) L'espressione suggerisce che la matrice di covarianza di X è ridotta verso una matrice diagonale, il che significa che (supponendo che le variabili siano standardizzate prima della procedura) verrà ridotta …
Supponiamo di avere un set di dati per un'attività di classificazione statistica supervisionata, ad esempio tramite un classificatore di Bayes. Questo set di dati è composto da 20 funzionalità e desidero ridurlo a 2 funzionalità tramite tecniche di riduzione della dimensionalità come Analisi componenti principali (PCA) e / o Analisi …
Quindi mi è stata posta una domanda sulla stima delle misure centrali L1 (es. Lazo) e L2 (es. Regressione della cresta). La risposta è L1 = mediana e L2 = media. C'è qualche tipo di ragionamento intuitivo in questo? O deve essere determinato algebricamente? In tal caso, come posso fare …
Capisco quale ruolo gioca lambda in una regressione elastica-rete. E posso capire perché si dovrebbe selezionare lambda.min, il valore di lambda che minimizza l'errore cross-validato. La mia domanda è: dove nella letteratura statistica si consiglia di utilizzare lambda.1se, ovvero il valore di lambda che minimizza l'errore CV più un errore …
Alcune funzioni e approssimazioni di penalità sono ben studiate, come il LASSO ( ) e il Ridge ( ) e come si confrontano nella regressione.L1L1L_1L2L2L_2 Ho letto della penalità Bridge, che è la penalità generalizzata . Confrontalo con il LASSO, che ha \ gamma = 1 , e il Ridge, …
Stavo esaminando la letteratura sulla regolarizzazione e spesso vedevo paragrafi che collegano la regolarizzazione L2 con il priore gaussiano e L1 con Laplace centrato su zero. So come appaiono questi priori, ma non capisco, come si traduca, ad esempio, in pesi nel modello lineare. In L1, se capisco correttamente, ci …
Ho letto Gli elementi dell'apprendimento statistico e non riuscivo a capire di cosa trattasse la Sezione 3.7 "Riduzione e selezione di risultati multipli". Parla di RRR (regressione di rango ridotto) e posso solo capire che la premessa riguarda un modello lineare multivariato generalizzato in cui i coefficienti sono sconosciuti (e …
Voglio capire meglio i pacchetti R Larse Glmnet, che sono usati per risolvere il problema Lazo: (per Variabili e campioni, vedi www.stanford.edu/~hastie/Papers/glmnet.pdf a pagina 3)pNm i n( β0β) ∈ Rp + 1[ 12 NΣi = 1N( yio- β0- xTioβ)2+ λ | | β| |l1]mion(β0β)∈Rp+1[12NΣio=1N(yio-β0-XioTβ)2+λ||β||l1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + \lambda||\beta …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.