Ritenuta ripetuta di sottoinsiemi di dati durante l'adattamento del modello al fine di quantificare le prestazioni del modello sui sottoinsiemi di dati trattenuti.
Ho letto più volte che la convalida incrociata "Leave-one-out" ha una varianza elevata a causa della grande sovrapposizione delle pieghe di allenamento. Tuttavia, non capisco perché: le prestazioni della convalida incrociata non dovrebbero essere molto stabili (bassa varianza) proprio perché i set di addestramento sono quasi identici? O sto avendo …
Ho una domanda specifica sulla convalida nella ricerca sull'apprendimento automatico. Come sappiamo, il regime di apprendimento automatico chiede ai ricercatori di addestrare i loro modelli sui dati di addestramento, scegliere tra i modelli candidati per set di validazione e riportare l'accuratezza sul set di test. In uno studio molto rigoroso, …
Data una matrice Vm×nVm×n\mathbf V^{m \times n} , la fattorizzazione a matrice non negativa (NMF) trova due matrici non negative Wm×kWm×k\mathbf W^{m \times k} e Hk×nHk×n\mathbf H^{k \times n} (cioè con tutti gli elementi ≥0≥0\ge 0 ) per rappresentare la matrice decomposta come: V≈WH,V≈WH,\mathbf V \approx \mathbf W\mathbf H, WW\mathbf …
Sto analizzando un set di dati usando un modello di effetti misti con un effetto fisso (condizione) e due effetti casuali (partecipante a causa del disegno e della coppia all'interno del soggetto). Il modello è stato generato conlme4 pacchetto: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Successivamente, ho eseguito un test del rapporto di verosimiglianza di …
Quando ho utilizzato il bootstrap per la valutazione del modello, ho sempre pensato che i campioni out-of-bag fossero usati direttamente come set di test. Tuttavia, questo non sembra essere il caso dell'approccio scikit-learn deprecato , che sembra costruire il set di test dal disegno con la sostituzione dal sottoinsieme di …
Sto facendo la classificazione delle immagini usando l'apprendimento automatico. Supponiamo che io abbia alcuni dati di allenamento (immagini) e li dividerò in set di addestramento e validazione. E voglio anche aumentare i dati (produrre nuove immagini da quelle originali) con rotazioni casuali e iniezione di rumore. Augmentaion viene eseguito offline. …
Ho cercato qui vari thread, ma non credo che la mia domanda esatta abbia una risposta. Ho un set di dati di circa 50.000 studenti e il loro tempo di abbandono. Eseguirò una regressione dei rischi proporzionale con un gran numero di potenziali covariate. Farò anche una regressione logistica sull'abbandono …
Sto redigendo una revisione della letteratura su un problema di salute pubblica in cui i dati sono confusi: Quali sono casi studio storici comuni che vengono utilizzati nell'educazione alla salute pubblica / epidemiologia in cui relazioni o inferenze non valide o confuse sono state intenzionalmente o erroneamente impiegate nella politica …
Ho già sentito la seguente espressione: "L'ottimizzazione è la radice di ogni male nelle statistiche". Ad esempio, la risposta migliore in questa discussione fa questa affermazione in riferimento al pericolo di ottimizzazione troppo aggressiva durante la selezione del modello. La mia prima domanda è la seguente: questa citazione è attribuibile …
Bloccato . Questa domanda e le sue risposte sono bloccate perché la domanda è fuori tema ma ha un significato storico. Al momento non accetta nuove risposte o interazioni. Ora ho un Rframe di dati (training), qualcuno può dirmi come dividere casualmente questo set di dati per fare una validazione …
Sto eseguendo una convalida incrociata utilizzando il metodo Leave-one-out. Ho una risposta binaria e sto usando il pacchetto di avvio per R e la funzione cv.glm . Il mio problema è che non capisco pienamente la parte "costo" in questa funzione. Da quello che posso capire questa è la funzione …
Dopo aver letto uno dei "Suggerimenti per la ricerca" di RJ Hyndman sulla convalida incrociata e le serie storiche, sono tornato a una mia vecchia domanda che cercherò di formulare qui. L'idea è che in problemi di classificazione o regressione, l'ordinamento dei dati non è importante, e quindi è possibile …
Scikit ha CalibratedClassifierCV , che ci consente di calibrare i nostri modelli su una particolare coppia X, y. Lo afferma anche chiaramentedata for fitting the classifier and for calibrating it must be disjoint. Se devono essere disgiunti, è legittimo addestrare il classificatore con quanto segue? model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) …
La mia comprensione generale è che AIC si occupa del compromesso tra la bontà di adattamento del modello e la complessità del modello. Un ioC= 2 k - 2 l n ( L )UNioC=2K-2ln(L)AIC =2k -2ln(L) KKk = numero di parametri nel modello = probabilitàLLL Il criterio di informazione bayesiana …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.