Ritenuta ripetuta di sottoinsiemi di dati durante l'adattamento del modello al fine di quantificare le prestazioni del modello sui sottoinsiemi di dati trattenuti.
Questa domanda potrebbe essere troppo aperta per ottenere una risposta definitiva, ma speriamo di no. Gli algoritmi di apprendimento automatico, come SVM, GBM, Random Forest ecc., Generalmente hanno alcuni parametri gratuiti che, al di là di una guida empirica, devono essere adattati a ciascun set di dati. Questo viene generalmente …
Di recente mi sono imbattuto in un documento che propone di utilizzare un classificatore k-NN su un set di dati specifico. Gli autori hanno utilizzato tutti i campioni di dati disponibili per eseguire la convalida incrociata k-fold per diversi valori k e riportare i risultati della convalida incrociata della migliore …
Mi è stato detto che è utile utilizzare la validazione incrociata stratificata, specialmente quando le classi di risposta sono sbilanciate. Se uno scopo della convalida incrociata è quello di aiutare a spiegare la casualità del nostro campione di dati di allenamento originale, fare sicuramente ogni piega con la stessa distribuzione …
Sto convalidando in modo incrociato un modello che sta cercando di prevedere un conteggio. Se questo fosse un problema di classificazione binaria, calcolerei l'AUC out-fold e se questo fosse un problema di regressione calcolerei RMSE o MAE out-of-fold. Per un modello di Poisson, quali parametri di errore posso usare per …
Sto cercando di apprendere vari metodi di convalida incrociata, principalmente con l'intenzione di applicare a tecniche di analisi multivariate supervisionate. Due che ho incontrato sono le tecniche di convalida incrociata K-fold e Monte Carlo. Ho letto che K-fold è una variante di Monte Carlo ma non sono sicuro di aver …
Ho una domanda relativa al processo di convalida incrociata. Sono nel mezzo di un corso di Machine Learning on the Cursera. Uno degli argomenti riguarda la convalida incrociata. L'ho trovato leggermente difficile da seguire. So perché abbiamo bisogno del CV perché vogliamo che i nostri modelli funzionino bene su dati …
Mi sono appena imbattuto in questo documento , che descrive come calcolare la ripetibilità ( nota anche come affidabilità, nota anche come correlazione intraclasse) di una misurazione tramite la modellazione di effetti misti. Il codice R sarebbe: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) …
Quando uso GAM, mi dà DF residuo è (ultima riga nel codice). Cosa significa? Andando oltre l'esempio GAM, in generale, il numero di gradi di libertà può essere un numero non intero?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …
Nella classificazione del testo, ho un set di addestramento con circa 800 campioni e un set di test con circa 150 campioni. Il set di test non è mai stato utilizzato e in attesa di essere utilizzato fino alla fine. Sto usando l'intero set di addestramento di 800 campioni, con …
È noto, soprattutto nell'elaborazione del linguaggio naturale, che l'apprendimento automatico dovrebbe procedere in due fasi, una fase di addestramento e una fase di valutazione, e dovrebbero utilizzare dati diversi. Perchè è questo? Intuitivamente, questo processo aiuta a evitare un eccesso di adattamento dei dati, ma non riesco a vedere una …
La convalida incrociata K-fold può essere utilizzata per stimare la capacità di generalizzazione di un determinato classificatore. Posso (o dovrei) anche calcolare una varianza aggregata da tutte le esecuzioni di validazione al fine di ottenere una stima migliore della sua varianza? Se no, perché? Ho trovato documenti che utilizzano la …
In una domanda altrove su questo sito, diverse risposte hanno indicato che l'AIC equivale alla validazione incrociata con esclusione (LOO) e che il BIC è equivalente alla convalida incrociata con K. C'è un modo per dimostrarlo empiricamente in R in modo tale che le tecniche coinvolte in LOO e K-fold …
La mia comprensione è che con la validazione incrociata e la selezione del modello cerchiamo di affrontare due cose: P1 . Stimare la perdita attesa sulla popolazione durante l'allenamento con il nostro campione P2 . Misura e segnala la nostra incertezza di questa stima (varianza, intervalli di confidenza, distorsione, ecc.) …
In alcune lezioni ed esercitazioni che ho visto, suggeriscono di dividere i dati in tre parti: formazione, convalida e test. Ma non è chiaro come utilizzare il set di dati di test, né come questo approccio sia migliore della convalida incrociata sull'intero set di dati. Supponiamo di aver salvato il …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.