Statistiche e Big Data cross-validation

2

Elevata varianza della convalida incrociata con esclusione

Ho letto più volte che la convalida incrociata "Leave-one-out" ha una varianza elevata a causa della grande sovrapposizione delle pieghe di allenamento. Tuttavia, non capisco perché: le prestazioni della convalida incrociata non dovrebbero essere molto stabili (bassa varianza) proprio perché i set di addestramento sono quasi identici? O sto avendo …

15 variance cross-validation bias

1

E se un'elevata precisione di convalida ma una bassa accuratezza dei test nella ricerca?

Ho una domanda specifica sulla convalida nella ricerca sull'apprendimento automatico. Come sappiamo, il regime di apprendimento automatico chiede ai ricercatori di addestrare i loro modelli sui dati di addestramento, scegliere tra i modelli candidati per set di validazione e riportare l'accuratezza sul set di test. In uno studio molto rigoroso, …

15 machine-learning cross-validation reproducible-research

2

Jackknife vs. LOOCV

C'è davvero qualche differenza tra il coltellino e lasciare fuori una validazione incrociata? La procedura sembra identica, mi sto perdendo qualcosa?

15 cross-validation jackknife

3

Come scegliere un numero ottimale di fattori latenti nella fattorizzazione a matrice non negativa?

Data una matrice Vm×nVm×n\mathbf V^{m \times n} , la fattorizzazione a matrice non negativa (NMF) trova due matrici non negative Wm×kWm×k\mathbf W^{m \times k} e Hk×nHk×n\mathbf H^{k \times n} (cioè con tutti gli elementi ≥0≥0\ge 0 ) per rappresentare la matrice decomposta come: V≈WH,V≈WH,\mathbf V \approx \mathbf W\mathbf H, WW\mathbf …

15 cross-validation unsupervised-learning latent-variable matrix-decomposition nnmf

1

Quale metodo di confronto multiplo utilizzare per un modello lmer: lsmeans o glht?

Sto analizzando un set di dati usando un modello di effetti misti con un effetto fisso (condizione) e due effetti casuali (partecipante a causa del disegno e della coppia all'interno del soggetto). Il modello è stato generato conlme4 pacchetto: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Successivamente, ho eseguito un test del rapporto di verosimiglianza di …

15 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

2

Perché la funzione bootstrap di scikit-learn ricampiona il set di test?

Quando ho utilizzato il bootstrap per la valutazione del modello, ho sempre pensato che i campioni out-of-bag fossero usati direttamente come set di test. Tuttavia, questo non sembra essere il caso dell'approccio scikit-learn deprecato , che sembra costruire il set di test dal disegno con la sostituzione dal sottoinsieme di …

15 cross-validation bootstrap random-forest scikit-learn bagging

3

Come eseguire la suddivisione dei dati e convalidare il treno?

Sto facendo la classificazione delle immagini usando l'apprendimento automatico. Supponiamo che io abbia alcuni dati di allenamento (immagini) e li dividerò in set di addestramento e validazione. E voglio anche aumentare i dati (produrre nuove immagini da quelle originali) con rotazioni casuali e iniezione di rumore. Augmentaion viene eseguito offline. …

14 machine-learning classification cross-validation dataset data-augmentation

3

Addestramento, test, validazione in un problema di analisi di sopravvivenza

Ho cercato qui vari thread, ma non credo che la mia domanda esatta abbia una risposta. Ho un set di dati di circa 50.000 studenti e il loro tempo di abbandono. Eseguirò una regressione dei rischi proporzionale con un gran numero di potenziali covariate. Farò anche una regressione logistica sull'abbandono …

14 cross-validation survival train

4

Quali sono i casi studio nella ricerca sulle politiche di sanità pubblica in cui studi o modelli non attendibili / confusi / non validi sono stati utilizzati in modo improprio?

Sto redigendo una revisione della letteratura su un problema di salute pubblica in cui i dati sono confusi: Quali sono casi studio storici comuni che vengono utilizzati nell'educazione alla salute pubblica / epidemiologia in cui relazioni o inferenze non valide o confuse sono state intenzionalmente o erroneamente impiegate nella politica …

14 cross-validation reliability epidemiology biostatistics

2

Ottimizzazione: la radice di tutto il male nelle statistiche?

Ho già sentito la seguente espressione: "L'ottimizzazione è la radice di ogni male nelle statistiche". Ad esempio, la risposta migliore in questa discussione fa questa affermazione in riferimento al pericolo di ottimizzazione troppo aggressiva durante la selezione del modello. La mia prima domanda è la seguente: questa citazione è attribuibile …

14 cross-validation optimization overfitting

6

Come dividere un set di dati per eseguire la convalida incrociata 10 volte

Bloccato . Questa domanda e le sue risposte sono bloccate perché la domanda è fuori tema ma ha un significato storico. Al momento non accetta nuove risposte o interazioni. Ora ho un Rframe di dati (training), qualcuno può dirmi come dividere casualmente questo set di dati per fare una validazione …

14 cross-validation

3

Qual è la funzione di costo in cv.glm nel pacchetto di avvio di R?

Sto eseguendo una convalida incrociata utilizzando il metodo Leave-one-out. Ho una risposta binaria e sto usando il pacchetto di avvio per R e la funzione cv.glm . Il mio problema è che non capisco pienamente la parte "costo" in questa funzione. Da quello che posso capire questa è la funzione …

14 r cross-validation

2

Ordinamento di serie storiche per l'apprendimento automatico

Dopo aver letto uno dei "Suggerimenti per la ricerca" di RJ Hyndman sulla convalida incrociata e le serie storiche, sono tornato a una mia vecchia domanda che cercherò di formulare qui. L'idea è che in problemi di classificazione o regressione, l'ordinamento dei dati non è importante, e quindi è possibile …

14 time-series machine-learning cross-validation

2

Modo corretto di Scikit per calibrare i classificatori con CalibratedClassifierCV

Scikit ha CalibratedClassifierCV , che ci consente di calibrare i nostri modelli su una particolare coppia X, y. Lo afferma anche chiaramentedata for fitting the classifier and for calibrating it must be disjoint. Se devono essere disgiunti, è legittimo addestrare il classificatore con quanto segue? model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) …

14 cross-validation scikit-learn validation train calibration

2

AIC, BIC e GCV: qual è il migliore per prendere una decisione nei metodi di regressione penalizzata?

La mia comprensione generale è che AIC si occupa del compromesso tra la bontà di adattamento del modello e la complessità del modello. Un ioC= 2 k - 2 l n ( L )UNioC=2K-2ln(L)AIC =2k -2ln(L) KKk = numero di parametri nel modello = probabilitàLLL Il criterio di informazione bayesiana …

14 cross-validation lasso aic ridge-regression bic

Domande taggate «cross-validation»