Inclusione di ulteriori vincoli (in genere una penalità per la complessità) nel processo di adattamento del modello. Utilizzato per prevenire un eccesso di adattamento / migliorare la precisione predittiva.
La regressione di Ridge stima i parametri ββ\boldsymbol \beta in un modello lineare y=Xβy=Xβ\mathbf y = \mathbf X \boldsymbol \beta by β^λ=(X⊤X+λI)−1X⊤y,β^λ=(X⊤X+λI)−1X⊤y,\hat{\boldsymbol \beta}_\lambda = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y, dove λλ\lambda è un parametro di regolarizzazione. È noto che spesso si comporta meglio …
Se iniziamo con un set di dati , applichiamo Lasso ad esso e otteniamo una soluzione β L , possiamo applicare nuovamente Lasso al set di dati ( X S , Y ) , dove S è l'insieme diverso da zero indici di β L , per ottenere una soluzione, …
C'è già un post su questo sito che parla dello stesso problema: perché il restringimento funziona? Ma, anche se le risposte sono popolari, non credo che l'essenza della domanda sia davvero indirizzata. È abbastanza chiaro che l'introduzione di una distorsione nella stima comporta una riduzione della varianza e può migliorare …
Sono preso dall'idea del restringimento di James-Stein (ovvero che una funzione non lineare di una singola osservazione di un vettore di normali forse indipendenti può essere una migliore stima dei mezzi delle variabili casuali, dove "meglio" è misurato da un errore al quadrato ). Tuttavia, non l'ho mai visto nel …
Esistono risultati analitici o documenti sperimentali riguardanti la scelta ottimale del coefficiente del termine di penalità ℓ1ℓ1\ell_1 . Per ottimale intendo un parametro che massimizza la probabilità di selezionare il modello migliore o che minimizza la perdita attesa. Lo sto chiedendo perché spesso non è pratico scegliere il parametro per …
La parola restringimento viene lanciata molto in alcuni ambienti. Ma cos'è il restringimento, non sembra esserci una definizione chiara. Se ho una serie temporale (o una raccolta di osservazioni di un certo processo) quali sono i diversi modi in cui posso misurare un qualche tipo di contrazione empirica sulla serie? …
Zou et al. "Sui" gradi di libertà "del lazo" (2007) mostrano che il numero di coefficienti diversi da zero è una stima imparziale e coerente per i gradi di libertà del lazo. Mi sembra un po 'controintuitivo. Supponiamo di avere un modello di regressione (dove le variabili sono zero media) …
Supponiamo di avere due stimatori e che sono stimatori coerenti dello stesso parametro e tali che con in senso psd. Pertanto, asintoticamente è più efficiente di . Questi due stimatori si basano su diverse funzioni di perdita. β 2β0√βˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2β0β0\beta_0n−−√(βˆ1−β0)→dN(0,V1),n−−√(βˆ2−β0)→dN(0,V2)n(β^1−β0)→dN(0,V1),n(β^2−β0)→dN(0,V2)\sqrt{n}(\widehat{\beta}_1 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_1), \quad \sqrt{n}(\widehat{\beta}_2 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_2) β …
Nel frattempo sto studiando LASSO (operatore di ritiro e selezione assoluto minimo). Vedo che il valore ottimale per il parametro di regolarizzazione può essere scelto per convalida incrociata. Vedo anche nella regressione della cresta e in molti metodi che applicano la regolarizzazione, possiamo usare CV per trovare il parametro di …
Ogni affermazione che trovo dello stimatore di James-Stein presuppone che le variabili casuali stimate abbiano la stessa (e unità) varianza. Ma tutti questi esempi menzionano anche che lo stimatore JS può essere usato per stimare quantità senza nulla a che fare l'una con l'altra. L' esempio di Wikipedia è la …
Per un semplice esempio, supponiamo che ci siano due modelli di regressione lineare Modello 1 ha tre predittori, x1a, x2b, ex2c Il modello 2 ha tre predittori dal modello 1 e due predittori aggiuntivi x2aex2b Esiste un'equazione di regressione della popolazione in cui la varianza della popolazione spiegata è per …
Supponiamo di avere dati longitudinali della forma (ho più osservazioni, questa è solo la forma di una singola). Sono interessato a restrizioni su . Un senza restrizioni equivale a prendere con .Σ Σ Y j = α j + j - 1 ∑ ℓ = 1 ϕ ℓ j Y …
Supponiamo che io abbia accoppiato osservazioni disegnate come Xi∼N(0,σ2x),Yi∼N(0,σ2y),Xi∼N(0,σx2),Yi∼N(0,σy2),X_i \sim \mathcal{N}\left(0,\sigma_x^2\right), Y_i \sim \mathcal{N}\left(0,\sigma_y^2\right), per i=1,2,…,ni=1,2,…,ni=1,2,\ldots,n . Lasciare Zi=Xi+Yi,Zi=Xi+Yi,Z_i = X_i + Y_i, e Indichiamo con ZijZijZ_{i_j} la jjj esima grande valore osservato di ZZZ. Qual è la distribuzione (condizionale) di ? (o equivalentemente, quello di Y i j )XijXijX_{i_j}YijYijY_{i_j} …
Sono confuso sull'analisi delle permutazioni per la selezione delle caratteristiche in un contesto di regressione logistica. Potresti fornire una chiara spiegazione del test di permutazione casuale e come si applica alla selezione delle funzionalità? Forse con algoritmo esatto ed esempi. Infine, come si confronta con altri metodi di restringimento come …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.