Statistiche e Big Data regularization

1

Perché glmnet utilizza una rete elastica "ingenua" della carta originale Zou & Hastie?

La carta elastica originale Zou & Hastie (2005) La regolarizzazione e la selezione delle variabili tramite la rete elastica hanno introdotto la funzione di perdita netta elastica per la regressione lineare (qui presumo che tutte le variabili siano centrate e ridimensionate in base alla varianza unitaria): ma l'ha definita "rete …

27 regression regularization glmnet elastic-net shrinkage

3

L'origine del termine "regolarizzazione"

Quando introduco concetti ai miei studenti, trovo spesso divertente dire loro dove ha origine la terminologia ("regressione", ad esempio, è un termine con un'origine interessante). Non sono stato in grado di evidenziare la storia / il background del termine "regolarizzazione" in apprendimento statistico / automatico. Quindi, qual è l'origine del …

27 terminology regularization history tikhonov-regularization

2

Perché la penalità del lazo equivale al doppio esponenziale (Laplace) precedente?

Ho letto in numerosi riferimenti che la stima del lazo per il vettore di parametro di regressione è equivalente al modo posteriore di in cui la distribuzione precedente per ciascun è una doppia distribuzione esponenziale (nota anche come distribuzione di Laplace).BBBBBBBiBiB_i Ho cercato di dimostrarlo, qualcuno può approfondire i dettagli?

27 regression bayesian lasso prior regularization

6

Perché pesi più piccoli si traducono in modelli più semplici nella regolarizzazione?

Ho completato il corso di Machine Learning di Andrew Ng circa un anno fa e sto scrivendo la mia esplorazione di matematica al liceo sul funzionamento della regressione logistica e sulle tecniche per ottimizzare le prestazioni. Una di queste tecniche è, ovviamente, la regolarizzazione. Lo scopo della regolarizzazione è prevenire …

27 regression machine-learning optimization regularization overfitting

2

I vantaggi di fare il "doppio lazo" o eseguire il lazo due volte?

Una volta ho sentito un metodo per usare due volte il lazo (come un doppio lazo) in cui esegui il lazo sull'insieme originale di variabili, ad esempio S1, ottieni un insieme sparso chiamato S2, quindi esegui nuovamente il lazo sull'insieme S2 per ottenere l'insieme S3 . C'è un termine metodologico …

26 regression lasso regularization shrinkage lars

3

Perché utilizzare le stime Lasso rispetto alle stime OLS sul sottoinsieme di variabili identificato da Lasso?

Per regressione Lazo supponiamo che la soluzione migliore (ad esempio un errore minimo di test) selezioni funzioni, in modo che \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ …

26 regression feature-selection lasso regularization

5

In che modo i principali componenti principali possono conservare il potere predittivo su una variabile dipendente (o persino portare a previsioni migliori)?

Supponiamo che io sono in esecuzione una regressione Y∼XY∼XY \sim X . Perché selezionando i componenti principali di di , il modello mantiene il suo potere predittivo su ?kkkXXXYYY Capisco che dal punto di vista della riduzione di dimensionalità / selezione delle caratteristiche, se sono gli autovettori della matrice di …

25 regression classification pca dimensionality-reduction regularization

3

Interpretazione della regolarizzazione della cresta nella regressione

Ho diverse domande riguardanti la penalità della cresta nel contesto dei minimi quadrati: βridge=(λID+X′X)−1X′yβridge=(λID+X′X)−1X′y\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y 1) L'espressione suggerisce che la matrice di covarianza di X è ridotta verso una matrice diagonale, il che significa che (supponendo che le variabili siano standardizzate prima della procedura) verrà ridotta …

25 regression pca regularization ridge-regression

2

Ha senso combinare PCA e LDA?

Supponiamo di avere un set di dati per un'attività di classificazione statistica supervisionata, ad esempio tramite un classificatore di Bayes. Questo set di dati è composto da 20 funzionalità e desidero ridurlo a 2 funzionalità tramite tecniche di riduzione della dimensionalità come Analisi componenti principali (PCA) e / o Analisi …

25 classification pca regularization discriminant-analysis overfitting

4

Stime di regressione L1 mediane mentre stime di regressione L2 significano?

Quindi mi è stata posta una domanda sulla stima delle misure centrali L1 (es. Lazo) e L2 (es. Regressione della cresta). La risposta è L1 = mediana e L2 = media. C'è qualche tipo di ragionamento intuitivo in questo? O deve essere determinato algebricamente? In tal caso, come posso fare …

24 lasso regularization loss-functions ridge-regression

2

Perché lambda "entro un errore standard dal minimo" è un valore raccomandato per lambda in una regressione netta elastica?

Capisco quale ruolo gioca lambda in una regressione elastica-rete. E posso capire perché si dovrebbe selezionare lambda.min, il valore di lambda che minimizza l'errore cross-validato. La mia domanda è: dove nella letteratura statistica si consiglia di utilizzare lambda.1se, ovvero il valore di lambda che minimizza l'errore CV più un errore …

24 regression cross-validation regularization glmnet elastic-net

1

Pena di ponte contro regolarizzazione della rete elastica

Alcune funzioni e approssimazioni di penalità sono ben studiate, come il LASSO ( ) e il Ridge ( ) e come si confrontano nella regressione.L1L1L_1L2L2L_2 Ho letto della penalità Bridge, che è la penalità generalizzata . Confrontalo con il LASSO, che ha \ gamma = 1 , e il Ridge, …

22 regression lasso regularization ridge-regression elastic-net

2

Perché Laplace produce precedentemente soluzioni sparse?

Stavo esaminando la letteratura sulla regolarizzazione e spesso vedevo paragrafi che collegano la regolarizzazione L2 con il priore gaussiano e L1 con Laplace centrato su zero. So come appaiono questi priori, ma non capisco, come si traduca, ad esempio, in pesi nel modello lineare. In L1, se capisco correttamente, ci …

22 regression bayesian prior regularization laplace-distribution

2

In cosa consiste la "regressione di rango ridotto"?

Ho letto Gli elementi dell'apprendimento statistico e non riuscivo a capire di cosa trattasse la Sezione 3.7 "Riduzione e selezione di risultati multipli". Parla di RRR (regressione di rango ridotto) e posso solo capire che la premessa riguarda un modello lineare multivariato generalizzato in cui i coefficienti sono sconosciuti (e …

22 regression multivariate-analysis dimensionality-reduction regularization reduced-rank-regression

3

Perché Lars e Glmnet offrono soluzioni diverse per il problema del lazo?

Voglio capire meglio i pacchetti R Larse Glmnet, che sono usati per risolvere il problema Lazo: (per Variabili e campioni, vedi www.stanford.edu/~hastie/Papers/glmnet.pdf a pagina 3)pNm i n( β0β) ∈ Rp + 1[ 12 NΣi = 1N( yio- β0- xTioβ)2+ λ | | β| |l1]mion(β0β)∈Rp+1[12NΣio=1N(yio-β0-XioTβ)2+λ||β||l1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + \lambda||\beta …

22 r regression machine-learning lasso regularization

Domande taggate «regularization»