Ritenuta ripetuta di sottoinsiemi di dati durante l'adattamento del modello al fine di quantificare le prestazioni del modello sui sottoinsiemi di dati trattenuti.
La regolarizzazione può essere utile se siamo interessati solo a stimare (e interpretare) i parametri del modello, non a previsioni o previsioni? Vedo come la regolarizzazione / convalida incrociata sia estremamente utile se il tuo obiettivo è fare buone previsioni su nuovi dati. Ma cosa succede se stai facendo economia …
Nei libri di testo e nelle lezioni su YouTube ho imparato molto sui modelli iterativi come il potenziamento, ma non ho mai visto nulla sulla derivazione di un intervallo di predizione. La convalida incrociata viene utilizzata per quanto segue: Selezione del modello : prova diversi modelli e scegli quello più …
Sto inserendo un HLM bayesiano in JAGS usando la validazione incrociata di k-fold (k = 5). Vorrei sapere se le stime del parametro sono stabili su tutte le pieghe. Qual'è il miglior modo per farlo?ββ\beta Un'idea è quella di trovare le differenze dei posteriori di e vedere se 0 è …
Ho un set di dati di 140000 esempi e 30 funzionalità per le quali sto addestrando diversi classificatori per una classificazione binaria (SVM, Regressione logistica, Foresta casuale ecc.) In molti casi l'ottimizzazione dell'iperparametro sull'intero set di dati utilizzando la ricerca Grid o Random è troppo dispendiosa in termini di tempo. …
So che per accedere alle prestazioni del classificatore devo dividere i dati in training / test set. Ma leggendo questo : Quando si valutano impostazioni diverse ("iperparametri") per gli stimatori, come l'impostazione C che deve essere impostata manualmente per un SVM, sussiste il rischio di un overfitting sul set di …
Supponiamo che esegua la convalida incrociata K-fold con K = 10 pieghe. Ci sarà una matrice di confusione per ogni piega. Quando si riportano i risultati, devo calcolare qual è la matrice di confusione media o semplicemente sommare le matrici di confusione?
Da un'introduzione all'apprendimento statistico di James et al., La stima di convalida incrociata (LOOCV) lascia una traccia è definita da dove .MSEi=(yi - y i)2CV( n )= 1nΣi = 1nMSEioCV(n)=1nΣio=1nMSEio\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_iMSEio= ( yio- y^io)2MSEio=(yio-y^io)2\text{MSE}_i = (y_i-\hat{y}_i)^2 Senza prove, l'equazione (5.2) afferma che per i minimi quadrati o la regressione …
Sto usando cv.glmnetper trovare predittori. L'impostazione che utilizzo è la seguente: lassoResults<-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda<-lassoResults$lambda.min results<-predict(lassoResults,s=bestlambda,type="coefficients") choicePred<-rownames(results)[which(results !=0)] Per assicurarsi che i risultati sono riproducibili io set.seed(1). I risultati sono molto variabili. Ho eseguito esattamente lo stesso codice 100 per vedere quanto variabili fossero i risultati. Nelle corse 98/100 era sempre stato …
Ho un set di dati con N ~ 5000 e circa 1/2 mancante su almeno una variabile importante. Il principale metodo analitico saranno i rischi proporzionali di Cox. Ho intenzione di utilizzare l'imputazione multipla. Mi dividerò anche in un treno e un set di test. Devo dividere i dati e …
Mi sono imbattuto in questo thread guardando le differenze tra bootstrap e cross validation - ottima risposta e riferimenti a proposito. Quello che mi chiedo è ora, se fossi di eseguire ripetute dire CV di 10 volte per calcolare la precisione di un classificatore, quante volte n dovrei ripeterlo? Fa …
Supponiamo che io abbia normalmente distribuito dati. Per ogni elemento dei dati voglio verificare quante SD sono lontane dalla media. Potrebbe esserci un valore anomalo nei dati (probabilmente solo uno, ma potrebbe anche essere due o tre) o no, ma questo valore errato è fondamentalmente quello che sto cercando. Ha …
Qualcuno può dirmi che cosa dà esattamente un'analisi di convalida incrociata come risultato? È solo la precisione media o fornisce qualche modello con parametri ottimizzati? Perché, ho sentito da qualche parte che la convalida incrociata viene utilizzata per l'ottimizzazione dei parametri.
Sto usando modelli SVM per fare previsioni a breve termine di inquinanti atmosferici. Per addestrare un nuovo modello, devo trovare metaparametri appropriati per un modello SVM (intendo C, gamma e così via). La documentazione di Libsvm (e molti altri libri che ho letto) suggerisce di usare la ricerca della griglia …
Al fine di calibrare un livello di confidenza con una probabilità nell'apprendimento supervisionato (diciamo per mappare la confidenza da un SVM o un albero decisionale usando dati sovracampionati) un metodo consiste nell'utilizzare il ridimensionamento di Platt (ad esempio, Ottenere probabilità calibrate dall'amplificazione ). Fondamentalmente si usa la regressione logistica per …
Ho letto i seguenti post per la validazione incrociata nidificata e non sono ancora sicuro al 100% di cosa devo fare con la selezione del modello con validazione incrociata nidificata: Convalida incrociata nidificata per la selezione del modello Selezione del modello e convalida incrociata: la strada giusta Per spiegare la …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.