Ritenuta ripetuta di sottoinsiemi di dati durante l'adattamento del modello al fine di quantificare le prestazioni del modello sui sottoinsiemi di dati trattenuti.
Di recente ho visto questo discorso di Eric J. Ma e ho controllato il suo blog , in cui cita Radford Neal, che i modelli bayesiani non si adattano troppo (ma possono adattarsi troppo ) e quando li usano, non abbiamo bisogno di set di test per convalidarli (per me …
Esempi: ho una frase nella descrizione del lavoro: "Ingegnere senior Java nel Regno Unito". Voglio usare un modello di apprendimento profondo per prevederlo in 2 categorie: English e IT jobs. Se uso il modello di classificazione tradizionale, posso solo prevedere 1 etichetta con la softmaxfunzione all'ultimo livello. Quindi, posso usare …
In The Elements of Statistical Learning , ho trovato la seguente dichiarazione: Esiste una qualifica: le fasi iniziali di screening senza supervisione possono essere eseguite prima che i campioni vengano esclusi. Ad esempio, potremmo selezionare i 1000 predittori con la varianza più elevata tra tutti i 50 campioni, prima di …
La mia domanda: dovrei fare CV anche per un set di dati relativamente grande? Ho un set di dati relativamente grande e applicherò un algoritmo di apprendimento automatico al set di dati. Dal momento che il mio PC non è veloce, il CV (e la ricerca della griglia) richiede a …
Ho letto i classificatori algebrici: un approccio generico alla convalida incrociata rapida, alla formazione online e alla formazione parallela e sono rimasto sorpreso dalle prestazioni degli algoritmi derivati. Tuttavia, sembra che oltre a Naive Bayes (e GBM) non ci siano molti algoritmi adattati al framework. Ci sono altri articoli che …
Quando utilizzo CV di k-fold per selezionare tra i modelli di regressione, di solito computo l'errore CV separatamente per ciascun modello, insieme al suo errore standard SE, e seleziono il modello più semplice entro 1 SE dal modello con l'errore CV più basso (il 1 regola di errore standard, vedere …
Ho alcuni modelli predittivi di cui vorrei eseguire il back-test delle prestazioni (ovvero, portare il mio set di dati, "riavvolgerlo" a un punto precedente nel tempo e vedere come il modello si sarebbe comportato in modo prospettico). Il problema è che alcuni dei miei modelli sono stati creati tramite un …
In Random Forest, ogni albero viene cresciuto in parallelo su un unico esempio di boostrap dei dati. Poiché ci si aspetta che ogni campione di boostrap contenga circa il 63% di osservazioni uniche, questo lascia circa il 37% di osservazioni che possono essere utilizzate per testare l'albero. Ora, sembra che …
Sto lavorando alla convalida incrociata della previsione dei miei dati con 200 soggetti e 1000 variabili. Sono interessato alla regressione della cresta poiché il numero di variabili (che voglio usare) è maggiore del numero del campione. Quindi voglio usare gli stimatori di contrazione. Di seguito sono riportati i dati di …
Mi rendo conto che ci sono 3 parametri di ottimizzazione nel modello degli alberi esaltanti, ad es il numero di alberi (numero di iterazioni) parametro di restringimento numero di divisioni (dimensioni di ciascun albero costituente) La mia domanda è: per ciascuno dei parametri di ottimizzazione, come devo trovare il suo …
Questa potrebbe essere forse una domanda sciocca, ma quando si genera un modello con cursore e si usa qualcosa di simile LOOCVo (ancora di più al punto) LGOCV, qual è il vantaggio di dividere i dati in set di treni e test se questo è essenzialmente ciò che la fase …
Supponiamo di avere un campione di frequenze di 4 possibili eventi: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 e ho le probabilità attese dei miei eventi: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Con la somma delle frequenze osservate dei …
Ho una domanda sulla selezione del modello e sulle prestazioni del modello nella regressione logistica. Ho tre modelli basati su tre diverse ipotesi. I primi due modelli (chiamiamoli z e x) hanno solo una variabile esplicativa in ciascun modello, e il terzo (chiamiamolo w) è più complicato. Sto usando AIC …
Sto usando 2 tipi di regressione logistica: uno è il tipo semplice, per la classificazione binaria, e l'altro è la regressione logistica ordinale. Per calcolare l'accuratezza del primo, ho usato la convalida incrociata, in cui ho calcolato l'AUC per ogni piega e poi calcolato l'AUC medio. Come posso farlo per …
Io e il mio collega stiamo montando una serie di modelli di effetti misti lineari e non lineari in R. Ci viene chiesto di eseguire una convalida incrociata sui modelli adattati in modo da poter verificare che gli effetti osservati siano relativamente generalizzabili. Questo è normalmente un compito banale, ma …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.