Inclusione di ulteriori vincoli (in genere una penalità per la complessità) nel processo di adattamento del modello. Utilizzato per prevenire un eccesso di adattamento / migliorare la precisione predittiva.
Considera la regressione della cresta con un vincolo aggiuntivo che richiede che abbia la somma unitaria dei quadrati (equivalentemente, varianza unitaria); se necessario, si può presumere che abbia anche la somma unitaria dei quadrati:y^y^\hat{\mathbf y}yy\mathbf y β^∗λ=argmin{∥y−Xβ∥2+λ∥β∥2}s.t.∥Xβ∥2=1.β^λ∗=argmin{‖y−Xβ‖2+λ‖β‖2}s.t.‖Xβ‖2=1.\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1. Qual …
Supponiamo che stia provando a stimare un gran numero di parametri da alcuni dati ad alta dimensione, usando una sorta di stime regolarizzate. Il regolarizzatore introduce un certo pregiudizio nelle stime, ma può ancora essere un buon compromesso perché la riduzione della varianza dovrebbe più che compensare. Il problema si …
Ho capito come la regressione della cresta restringe geometricamente i coefficienti verso zero. Inoltre so come dimostrarlo nello speciale "caso ortonormale", ma sono confuso su come funziona nel caso generale tramite "decomposizione spettrale".
Ho una domanda per quanto riguarda la necessità di utilizzare i metodi di selezione delle caratteristiche (le foreste casuali presentano un valore di importanza o i metodi di selezione delle caratteristiche univariati, ecc.) Prima di eseguire un algoritmo di apprendimento statistico. Sappiamo che per evitare un eccesso di adattamento possiamo …
Sto usando libsvm in modalità C-SVC con un kernel polinomiale di grado 2 e mi viene richiesto di addestrare più SVM. Ogni set di allenamento ha 10 funzioni e 5000 vettori. Durante l'allenamento, ricevo questo avviso per la maggior parte degli SVM che alleno: WARNING: reaching max number of iterations …
La regolarizzazione nella regressione (lineare, logistica ...) è il modo più popolare per ridurre l'eccessivo adattamento. Quando l'obiettivo è l'accuratezza della previsione (non la spiegazione), ci sono buone alternative alla regolarizzazione, particolarmente adatte per grandi insiemi di dati (mi / miliardi di osservazioni e milioni di funzionalità)?
La regolarizzazione può essere utile se siamo interessati solo a stimare (e interpretare) i parametri del modello, non a previsioni o previsioni? Vedo come la regolarizzazione / convalida incrociata sia estremamente utile se il tuo obiettivo è fare buone previsioni su nuovi dati. Ma cosa succede se stai facendo economia …
Ricordo di aver letto da qualche parte sul web una connessione tra regressione della cresta (con ℓ2ℓ2\ell_2 regolarizzazione) e regressione della PCA: durante l'utilizzo della regressione ℓ2ℓ2\ell_2 regolata con iperparametro λλ\lambda , se λ→0λ→0\lambda \to 0 , la regressione equivale alla rimozione della variabile PC con il più piccolo autovalore. …
È noto che la regressione lineare con una penalità equivale a trovare la stima MAP data un precedente gaussiano sui coefficienti. Allo stesso modo, usare una penalità l 1 equivale a usare una distribuzione di Laplace come precedente.l2l2l^2l1l1l^1 Non è raro usare una combinazione ponderata di e l 2 regolarizzazione. …
Nel libro di Bishop "Classificazione dei modelli e apprendimento automatico", descrive una tecnica per la regolarizzazione nel contesto delle reti neurali. Tuttavia, non capisco un paragrafo che descriva che durante il processo di formazione, il numero di gradi di libertà aumenta insieme alla complessità del modello. La citazione pertinente è …
Robby McKilliam dice in un commento a questo post: Va sottolineato che, dal punto di vista dei frequentisti, non vi è alcun motivo per cui non è possibile incorporare le conoscenze precedenti nel modello. In questo senso, la visione frequentista è più semplice, hai solo un modello e alcuni dati. …
Ho un set di 150 funzionalità e molte di esse sono altamente correlate tra loro. Il mio obiettivo è prevedere il valore di una variabile discreta, il cui intervallo è 1-8 . La mia dimensione del campione è 550 e sto usando una validazione incrociata di 10 volte . AFAIK, …
Se iniziamo con un set di dati , applichiamo Lasso ad esso e otteniamo una soluzione β L , possiamo applicare nuovamente Lasso al set di dati ( X S , Y ) , dove S è l'insieme diverso da zero indici di β L , per ottenere una soluzione, …
Nella regressione del lazo o della cresta, è necessario specificare un parametro di restringimento, spesso chiamato da o . Questo valore viene spesso scelto tramite validazione incrociata controllando un sacco di valori diversi sui dati di allenamento e vedendo quale produce il migliore, ad es. sui dati di test. Qual …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.