Inclusione di ulteriori vincoli (in genere una penalità per la complessità) nel processo di adattamento del modello. Utilizzato per prevenire un eccesso di adattamento / migliorare la precisione predittiva.
Considera i seguenti tre fenomeni. Paradosso di Stein: dati alcuni dalla distribuzione normale multivariata in , la media campionaria non è un ottimo stimatore della media vera. Si può ottenere una stima con errore quadratico medio inferiore se si riducono tutte le coordinate della media campionaria verso zero [o verso …
Le festività natalizie mi hanno dato l'opportunità di rannicchiarsi vicino al fuoco con The Elements of Statistical Learning . Provenendo da una prospettiva econometrica (frequentista), ho difficoltà a cogliere gli usi dei metodi di contrazione come regressione della cresta, lazo e regressione dell'angolo minimo (LAR). In genere, sono interessato alle …
Comprendo che la stima della regressione della cresta è il ββ\beta che minimizza la somma residua del quadrato e una penalità sulla dimensione di ββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] Tuttavia, non capisco appieno il significato del fatto che differisce da aggiungendo solo …
Al fine di risolvere i problemi di selezione del modello, una serie di metodi (LASSO, regressione della cresta, ecc.) Ridurrà i coefficienti delle variabili predittive verso lo zero. Sto cercando una spiegazione intuitiva del perché questo migliora l'abilità predittiva. Se il vero effetto della variabile era in realtà molto grande, …
Considera un buon vecchio problema di regressione con predittori e dimensione del campione . La solita saggezza è che lo stimatore OLS si sovraccaricherà e sarà generalmente sovraperformato dallo stimatore della regressione della cresta:È standard utilizzare la convalida incrociata per trovare un parametro di regolarizzazione ottimale . Qui uso un …
Qual è la formula esatta usata in R lm() per il rettangolo R rettificato? Come posso interpretarlo? Formule rettangolari rettificate Sembra che esistano diverse formule per calcolare il rettangolo R rettificato. Formula di Wherry: 1 - ( 1 - R2) ( n - 1 )( n - v )1-(1-R2)(n-1)(n-v)1-(1-R^2)\frac{(n-1)}{(n-v)} Formula …
Ho letto tre motivi principali per standardizzare le variabili prima di qualcosa come la Lassoregressione: 1) Interpretazione dei coefficienti. 2) Capacità di classificare l'importanza del coefficiente in base all'entità relativa delle stime del coefficiente post-restringimento. 3) Non è necessario intercettare. Ma mi chiedo il punto più importante. Abbiamo motivo di …
La carta elastica originale Zou & Hastie (2005) La regolarizzazione e la selezione delle variabili tramite la rete elastica hanno introdotto la funzione di perdita netta elastica per la regressione lineare (qui presumo che tutte le variabili siano centrate e ridimensionate in base alla varianza unitaria): ma l'ha definita "rete …
Una volta ho sentito un metodo per usare due volte il lazo (come un doppio lazo) in cui esegui il lazo sull'insieme originale di variabili, ad esempio S1, ottieni un insieme sparso chiamato S2, quindi esegui nuovamente il lazo sull'insieme S2 per ottenere l'insieme S3 . C'è un termine metodologico …
La regressione di LASSO riduce i coefficienti verso zero, fornendo così un'efficace selezione del modello. Credo che nei miei dati vi siano interazioni significative tra covariate nominali e continue. Non necessariamente, tuttavia, gli "effetti principali" del modello reale sono significativi (diversi da zero). Ovviamente non lo so poiché il vero …
Per un modello lineare y=β0+xβ+εy=β0+xβ+εy=\beta_0+x\beta+\varepsilon , il termine di restringimento è sempre P(β)P(β)P(\beta) . Qual è la ragione per cui non restringiamo il termine bias (intercetta) β0β0\beta_0 ? Dovremmo ridurre il termine di distorsione nei modelli di rete neurale?
La precisione è definita come: p = true positives / (true positives + false positives) È corretto che, come true positivese false positivesavvicinarsi a 0, la precisione si avvicina a 1? Stessa domanda da ricordare: r = true positives / (true positives + false negatives) Attualmente sto implementando un test …
Ho letto dello stimatore di James-Stein. È definito, in queste note , come θ^= ( 1 - p - 2∥ X∥2) Xθ^=(1-p-2‖X‖2)X \hat{\theta}=\left(1 - \frac{p-2}{\|X\|^2}\right)X Ho letto la prova ma non capisco la seguente dichiarazione: Dal punto di vista geometrico, lo stimatore di James-Stein riduce ogni componente di XXX verso …
Ho una domanda sul calcolo del fattore di restringimento di James-Stein nel documento scientifico americano del 1977 di Bradley Efron e Carl Morris, "Stein's Paradox in Statistics" . Ho raccolto i dati per i giocatori di baseball e sono riportati di seguito: Name, avg45, avgSeason Clemente, 0.400, 0.346 Robinson, 0.378, …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.