Ritenuta ripetuta di sottoinsiemi di dati durante l'adattamento del modello al fine di quantificare le prestazioni del modello sui sottoinsiemi di dati trattenuti.
Nel suo articolo Linear Model Selection by Cross-Validation , Jun Shao mostra che per il problema della selezione variabile nella regressione lineare multivariata, il metodo di validazione incrociata unilaterale (LOOCV) è "asintoticamente incoerente". In parole povere, tende a selezionare modelli con troppe variabili. In uno studio di simulazione, Shao mostra …
La mia comprensione è che anche quando si seguono le corrette procedure di convalida incrociata e selezione dei modelli, si verificherà un overfitting se si cerca un modello abbastanza duramente , a meno che non si impongano restrizioni sulla complessità del modello, sul periodo. Inoltre, spesso le persone tentano di …
Nota: il caso è n >> p Sto leggendo Elements of Statistical Learning e ci sono varie menzioni sul modo "giusto" di fare la validazione incrociata (es. Pagina 60, pagina 245). In particolare, la mia domanda è come valutare il modello finale (senza un set di test separato) usando k-fold …
Ho letto della convalida di k-fold e voglio essere sicuro di capire come funziona. So che per il metodo di controllo, i dati vengono suddivisi in tre set e il set di test viene utilizzato solo alla fine per valutare le prestazioni del modello, mentre il set di convalida viene …
Ho eseguito una convalida incrociata di 10 volte su diversi algoritmi di classificazione binaria, con lo stesso set di dati, e ho ricevuto risultati medi sia su micro che su macro. Va detto che si trattava di un problema di classificazione multi-etichetta. Nel mio caso, i veri negativi e i …
So che eseguire l'ottimizzazione dell'iperparametro al di fuori della convalida incrociata può portare a stime distorte della validità esterna, poiché il set di dati utilizzato per misurare le prestazioni è lo stesso utilizzato per ottimizzare le funzionalità. Quello che mi chiedo è quanto sia grave questo problema . Posso capire …
Sto testando diversi classificatori su un set di dati in cui ci sono 5 classi e ogni istanza può appartenere a una o più di queste classi, quindi sto usando i classificatori multi-etichetta di scikit-learn, in particolare sklearn.multiclass.OneVsRestClassifier. Ora voglio eseguire la validazione incrociata usando il sklearn.cross_validation.StratifiedKFold. Questo produce il …
Sto usando libsvm in modalità C-SVC con un kernel polinomiale di grado 2 e mi viene richiesto di addestrare più SVM. Ogni set di allenamento ha 10 funzioni e 5000 vettori. Durante l'allenamento, ricevo questo avviso per la maggior parte degli SVM che alleno: WARNING: reaching max number of iterations …
Dato un modello gerarchico , voglio che un processo in due fasi si adatti al modello. Innanzitutto, correggi una manciata di iperparametri , quindi fai l'inferenza bayesiana sul resto dei parametri . Per correggere gli iperparametri sto prendendo in considerazione due opzioni.p ( x | ϕ , θ )p(X|φ,θ)p(x|\phi,\theta)θθ\thetaφφ\phi Usa …
Due approcci comuni per la selezione di variabili correlate sono i test di significatività e la validazione incrociata. Quale problema ciascuno cerca di risolvere e quando preferirei l'uno all'altro?
La precisione è definita come: p = true positives / (true positives + false positives) È corretto che, come true positivese false positivesavvicinarsi a 0, la precisione si avvicina a 1? Stessa domanda da ricordare: r = true positives / (true positives + false negatives) Attualmente sto implementando un test …
Ho dedicato molto tempo allo sviluppo di metodi e software per la validazione di modelli predittivi nel tradizionale dominio statistico frequentista. Nel mettere in pratica più idee bayesiane e nell'insegnamento vedo alcune differenze chiave da abbracciare. In primo luogo, la modellazione predittiva bayesiana chiede all'analista di riflettere attentamente sulle distribuzioni …
Sono confuso su come partizionare i dati per la validazione incrociata k-fold dell'apprendimento d'insieme. Supponendo di avere un quadro di apprendimento dell'ensemble per la classificazione. Il mio primo livello contiene i modelli di classificazione, ad esempio svm, alberi decisionali. Il mio secondo livello contiene un modello di voto, che combina …
Vorrei sapere se ci sono alcuni / alcuni vantaggi dell'utilizzo del campionamento stratificato anziché del campionamento casuale, quando si divide il set di dati originale in training e set di test per la classificazione. Inoltre, il campionamento stratificato introduce più distorsioni nel classificatore rispetto al campionamento casuale? L'applicazione, per la …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.