Ritenuta ripetuta di sottoinsiemi di dati durante l'adattamento del modello al fine di quantificare le prestazioni del modello sui sottoinsiemi di dati trattenuti.
Nella discussione: come generare una curva roc per la classificazione binaria , penso che la confusione fosse che un "classificatore binario" (che è qualsiasi classificatore che separa 2 classi) era per Yang quello che viene chiamato un "classificatore discreto" (che produce uscite discrete 0/1 come un SVM) e non uscite …
Ho alcuni dati e voglio costruire un modello (per esempio un modello di regressione lineare) da questi dati. Nel prossimo passaggio, voglio applicare il modello di convalida incrociata (LOOCV) Leave-One-Out sul modello, quindi guarda quanto funziona bene. Se ho capito bene LOOCV, ho creato un nuovo modello per ciascuno dei …
Sto eseguendo una convalida incrociata nidificata. Ho letto che la validazione incrociata lasciata in sospeso può essere parziale (non ricordo perché). È meglio utilizzare la convalida incrociata 10 volte o la convalida incrociata con esclusione a parte oltre al tempo di esecuzione più lungo per la convalida incrociata con interruzione …
Qual è il metodo di campionamento più appropriato per valutare le prestazioni di un classificatore su un particolare set di dati e confrontarlo con altri classificatori? La convalida incrociata sembra essere una pratica standard, ma ho letto che metodi come il bootstrap .632 sono una scelta migliore. Come follow-up: la …
Sto cercando un riferimento al documento in cui è stata introdotta la convalida incrociata di k-fold (piuttosto che solo un buon riferimento accademico per la materia). Forse è troppo indietro nella notte dei tempi per identificare in modo inequivocabile il primissimo documento, quindi qualsiasi documento iniziale in cui l'idea è …
Capisco quale ruolo gioca lambda in una regressione elastica-rete. E posso capire perché si dovrebbe selezionare lambda.min, il valore di lambda che minimizza l'errore cross-validato. La mia domanda è: dove nella letteratura statistica si consiglia di utilizzare lambda.1se, ovvero il valore di lambda che minimizza l'errore CV più un errore …
Ho trovato definizioni forse contrastanti per la statistica di convalida incrociata (CV) e per la statistica di convalida incrociata generalizzata (GCV) associata a un modello lineare Y=Xβ+εY=Xβ+εY = X\boldsymbol\beta + \boldsymbol\varepsilon (con un vettore di errore omoscedastico normale εε\boldsymbol\varepsilon ). Da un lato, Golub, Heath & Wahba definiscono la stima …
Stamattina mi sono svegliato chiedendomi (ciò potrebbe essere dovuto al fatto che ieri sera non ho dormito molto): poiché la convalida incrociata sembra essere la pietra angolare della corretta previsione delle serie storiche, quali sono i modelli che dovrei "normalmente" "convalida incrociata contro? Ne ho inventati alcuni (facili), ma presto …
Sono interessato alla selezione del modello in un'impostazione di serie storiche. Per concretezza, supponiamo che io voglia selezionare un modello ARMA da un pool di modelli ARMA con diversi ordini di ritardo. L' intento finale è la previsione . La selezione del modello può essere effettuata da convalida incrociata, utilizzo …
Ho letto molti articoli di ricerca sulla classificazione dei sentimenti e argomenti correlati. La maggior parte di essi utilizza una validazione incrociata di 10 volte per addestrare e testare i classificatori. Ciò significa che non viene eseguito alcun test / convalida separato. Perché? Quali sono i vantaggi / gli svantaggi …
Intro: Ho un set di dati con un classico "grande problema p, piccolo problema". Il numero di campioni disponibili n = 150 mentre il numero di possibili predittori p = 400. Il risultato è una variabile continua. Voglio trovare i descrittori più "importanti", cioè quelli che sono i migliori candidati …
In che modo i modelli di effetti misti (lineari) vengono normalmente confrontati tra loro? So che è possibile utilizzare i test del rapporto di verosimiglianza, ma ciò non funziona se un modello non è un "sottoinsieme" dell'altro corretto? La stima dei modelli df è sempre semplice? Numero di effetti fissi …
Quando provo a scegliere tra vari modelli o il numero di funzioni da includere, diciamo che posso pensare a due approcci. Dividi i dati in training e set di test. Meglio ancora, usa bootstrap o k-fold cross-validation. Allenarsi sul set di allenamento ogni volta e calcolare l'errore sul set di …
Ho dati storici sulle vendite di una panetteria (ogni giorno, oltre 3 anni). Ora voglio costruire un modello per prevedere le vendite future (utilizzando funzionalità come giorni feriali, variabili meteorologiche, ecc.). Come devo dividere il set di dati per adattare e valutare i modelli? Deve essere un treno cronologico / …
Sto eseguendo una regressione logistica a rete elastica su un set di dati sanitari utilizzando il glmnetpacchetto in R selezionando i valori lambda su una griglia di αα\alpha da 0 a 1. Il mio codice abbreviato è di seguito: alphalist <- seq(0,1,by=0.1) elasticnet <- lapply(alphalist, function(a){ cv.glmnet(x, y, alpha=a, family="binomial", …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.