Inclusione di ulteriori vincoli (in genere una penalità per la complessità) nel processo di adattamento del modello. Utilizzato per prevenire un eccesso di adattamento / migliorare la precisione predittiva.
Sto leggendo i libri sulla regressione lineare. Ci sono alcune frasi sulla norma L1 e L2. Li conosco, ma non capisco perché la norma L1 per i modelli sparsi. Qualcuno può dare una spiegazione semplice?
Ho letto Elements of Statistical Learning e vorrei sapere perché il Lazo fornisce una selezione variabile e la regressione della cresta no. Entrambi i metodi riducono al minimo la somma residua di quadrati e hanno un vincolo sui possibili valori dei parametri ββ\beta . Per il Lazo, il vincolo è …
A differenza di altri articoli, ho trovato la voce di Wikipedia per questo argomento illeggibile per una persona non matematica (come me). Ho capito l'idea di base, secondo cui preferisci modelli con meno regole. Quello che non capisco è come si passa da un insieme di regole a un "punteggio …
Continuo a leggere questo e intuitivamente posso vederlo, ma come si passa dalla regolarizzazione L2 a dire che si tratta analiticamente di un priore gaussiano? Lo stesso vale per dire che L1 equivale a un precedente lappone. Ogni ulteriore riferimento sarebbe fantastico.
Al fine di risolvere i problemi di selezione del modello, una serie di metodi (LASSO, regressione della cresta, ecc.) Ridurrà i coefficienti delle variabili predittive verso lo zero. Sto cercando una spiegazione intuitiva del perché questo migliora l'abilità predittiva. Se il vero effetto della variabile era in realtà molto grande, …
Ogni volta che viene utilizzata la regolarizzazione, viene spesso aggiunta alla funzione di costo, come nella seguente funzione di costo. Questo ha senso intuitivo per me poiché minimizza il funzione di costo significa minimizzare l'errore (il termine a sinistra) e minimizzare allo stesso tempo l'entità dei coefficienti (il termine a …
Considera un buon vecchio problema di regressione con predittori e dimensione del campione . La solita saggezza è che lo stimatore OLS si sovraccaricherà e sarà generalmente sovraperformato dallo stimatore della regressione della cresta:È standard utilizzare la convalida incrociata per trovare un parametro di regolarizzazione ottimale . Qui uso un …
Nelle statistiche tradizionali, durante la creazione di un modello, controlliamo la multicollinearità utilizzando metodi come le stime del fattore di inflazione della varianza (VIF), ma nell'apprendimento automatico, invece, utilizziamo la regolarizzazione per la selezione delle funzionalità e non sembriamo verificare se le funzionalità sono correlate affatto. Perché lo facciamo?
La regolarizzazione usando metodi come Ridge, Lasso, ElasticNet è abbastanza comune per la regressione lineare. Volevo sapere quanto segue: questi metodi sono applicabili per la regressione logistica? In tal caso, esistono differenze nel modo in cui devono essere utilizzate per la regressione logistica? Se questi metodi non sono applicabili, come …
Lo slancio viene utilizzato per ridurre le fluttuazioni delle variazioni di peso su iterazioni consecutive:αα\alpha Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), dove è la funzione di errore, - il vettore dei pesi, - tasso di apprendimento.E(w)E(w)E({\bf w})ww{\bf w}ηη\eta La riduzione del peso penalizza le variazioni di …
Sto riscontrando alcuni problemi con la derivazione della soluzione per la regressione della cresta. Conosco la soluzione di regressione senza il termine di regolarizzazione: β= ( XTX)- 1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. Ma dopo aver aggiunto il termine L2 alla funzione di costo, come mai la soluzione diventaλ ∥ β∥22λ‖β‖22\lambda\|\beta\|_2^2 β= ( …
Esistono studi empirici che giustificano l'uso dell'unica regola di errore standard a favore della parsimonia? Ovviamente dipende dal processo di generazione dei dati, ma tutto ciò che analizza un ampio corpus di set di dati sarebbe una lettura molto interessante. La "regola dell'errore standard" viene applicata quando si selezionano i …
Un problema che ho visto spesso sollevato nel contesto delle reti neurali in generale, e delle reti neurali profonde in particolare, è che sono "affamati di dati", ovvero che non funzionano bene se non disponiamo di un set di dati di grandi dimensioni con cui addestrare la rete. La mia …
A pagina 223 in Un'introduzione all'apprendimento statistico , gli autori sintetizzano le differenze tra regressione della cresta e lazo. Forniscono un esempio (Figura 6.9) di quando "il lazo tende a sovraperformare la regressione della cresta in termini di distorsione, varianza e MSE". Capisco perché il lazo può essere desiderabile: si …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.