Ho sentito che la regressione della cresta può essere derivata come media di una distribuzione posteriore, se il priore viene scelto adeguatamente. L'intuizione che i vincoli impostati sui coefficienti di regressione dal precedente (ad es. Distribuzioni normali standard attorno a 0) sono identici / sostituisce la penalità impostata sulla dimensione …
In "The Elements of Statistical Learning" (2a edizione), p63, gli autori forniscono le seguenti due formulazioni del problema di regressione della cresta: β^r i dge= argminβ{ ∑i = 1N( yio- β0- ∑j = 1pXio jβj)2+ λ ∑j = 1pβ2j}β^riodge=argminβ{Σio=1N(yio-β0-Σj=1pXiojβj)2+λΣj=1pβj2} \hat{\beta}^{ridge} = \underset{\beta}{\operatorname{argmin}} \left\{ \sum_{i=1}^N(y_i-\beta_0-\sum_{j=1}^p x_{ij} \beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2 …
Ho letto i libri più popolari nell'apprendimento statistico 1- Gli elementi dell'apprendimento statistico. 2- Un'introduzione all'apprendimento statistico . Entrambi menzionano che la regressione della cresta ha due formule equivalenti. Esiste una comprensibile prova matematica di questo risultato? Ho anche esaminato Cross Validated , ma non riesco a trovare una prova …
Quando si esegue la regressione della cresta, come si interpretano i coefficienti che risultano più grandi dei coefficienti corrispondenti sotto i minimi quadrati (per determinati valori di )? La regressione della cresta non dovrebbe ridurre i coefficienti monotonicamente?λλ\lambda In una nota correlata, come si interpreta un coefficiente il cui segno …
Nella regressione della cresta, la funzione obiettivo da minimizzare è:RSS+λ∑β2j.RSS+λ∑βj2.\text{RSS}+\lambda \sum\beta_j^2. Questo può essere ottimizzato usando il metodo del moltiplicatore di Lagrange? O è una differenziazione diretta?
La mia comprensione generale è che AIC si occupa del compromesso tra la bontà di adattamento del modello e la complessità del modello. Un ioC= 2 k - 2 l n ( L )UNioC=2K-2ln(L)AIC =2k -2ln(L) KKk = numero di parametri nel modello = probabilitàLLL Il criterio di informazione bayesiana …
Sto imparando la regressione della cresta e so che la regressione della cresta tende a funzionare meglio in presenza di multicollinearità. Mi chiedo perché sia vero? O una risposta intuitiva o matematica sarebbe soddisfacente (entrambi i tipi di risposte sarebbero ancora più soddisfacenti). Inoltre, so che tale β può sempre …
Voglio calcolare l'AICc di un modello di regressione della cresta. Il problema è il numero di parametri. Per la regressione lineare, la maggior parte delle persone suggerisce che il numero di parametri è uguale al numero di coefficienti stimati più sigma (la varianza dell'errore). Quando si tratta di regressione della …
Ho letto che la regressione della cresta potrebbe essere ottenuta semplicemente aggiungendo righe di dati alla matrice di dati originale, dove ogni riga è costruita usando 0 per le variabili dipendenti e la radice quadrata di o zero per le variabili indipendenti. Viene quindi aggiunta una riga aggiuntiva per ogni …
Sto cercando letteratura sulla regressione della cresta negativa . In breve, si tratta di una generalizzazione della regressione della cresta lineare usando negativo nella formula dello stimatore:Il caso positivo ha una buona teoria: come una funzione di perdita, come un vincolo, come un precedente di Bayes ... ma mi sento …
Questo post segue questo: perché la stima della cresta diventa migliore di OLS aggiungendo una costante alla diagonale? Ecco la mia domanda: Per quanto ne so, la regolarizzazione della cresta usa un -norm (distanza euclidea). Ma perché usiamo il quadrato di questa norma? (un'applicazione diretta di risulterebbe con la radice …
Secondo i riferimenti libro 1 , libro 2 e carta . È stato menzionato che esiste un'equivalenza tra la regressione regolarizzata (Ridge, LASSO e Elastic Net) e le loro formule di vincolo. Ho anche esaminato Cross Validated 1 e Cross Validated 2 , ma non riesco a vedere una risposta …
Sto eseguendo un modello di regressione sia con Lasso che con Ridge (per prevedere una variabile di esito discreto che varia da 0-5). Prima di eseguire il modello, utilizzo il SelectKBestmetodo di scikit-learnper ridurre il set di funzionalità da 250 a 25 . Senza una selezione iniziale delle caratteristiche, sia …
Supponiamo di avere due stimatori e che sono stimatori coerenti dello stesso parametro e tali che con in senso psd. Pertanto, asintoticamente è più efficiente di . Questi due stimatori si basano su diverse funzioni di perdita. β 2β0√βˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2β0β0\beta_0n−−√(βˆ1−β0)→dN(0,V1),n−−√(βˆ2−β0)→dN(0,V2)n(β^1−β0)→dN(0,V1),n(β^2−β0)→dN(0,V2)\sqrt{n}(\widehat{\beta}_1 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_1), \quad \sqrt{n}(\widehat{\beta}_2 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_2) β …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.