Ritenuta ripetuta di sottoinsiemi di dati durante l'adattamento del modello al fine di quantificare le prestazioni del modello sui sottoinsiemi di dati trattenuti.
La pagina di Scikit Learn sulla selezione del modello menziona l'uso della validazione incrociata nidificata: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Due cicli di validazione incrociata vengono eseguiti in parallelo: uno dallo stimatore GridSearchCV per impostare la gamma e l'altro da cross_val_score per misurare le …
Sembra che ci siano consigli contrastanti là fuori su come gestire il confronto tra errore treno e test, in particolare quando c'è un divario tra i due. Sembra che ci siano due scuole di pensiero che per me sembrano in conflitto. Sto cercando di capire come conciliare i due (o …
La mia domanda principale riguarda il tentativo di capire come k-fold cross-validation si adatta al contesto di avere set di training / validation / testing (se si adatta a tutti in tale contesto). Di solito, le persone parlano di dividere i dati in un set di addestramento, validazione e test …
Ho una domanda sull'ottimizzazione dei parametri quando utilizzo la convalida incrociata 10 volte. Voglio chiedere se i parametri devono essere corretti o meno durante l'allenamento del modello di ogni piega, ovvero (1) selezionare un set di parametri ottimizzati per la precisione media di ogni piega. o (2) Dovrei trovare il …
Di solito nella regressione logistica, adattiamo un modello e otteniamo alcune previsioni sul set di addestramento. Quindi convalidiamo in modo incrociato quelle previsioni di allenamento (qualcosa come qui ) e decidiamo il valore di soglia ottimale in base a qualcosa come la curva ROC. Perché non incorporiamo la validazione incrociata …
Quando valutiamo la qualità di una foresta casuale, ad esempio utilizzando AUC, è più appropriato calcolare queste quantità sui campioni out of bag o sul set di validazione incrociata? Ho sentito che il calcolo su campioni OOB fornisce una valutazione più pessimistica, ma non vedo perché.
Ho appena finito "Un'introduzione all'apprendimento statistico" . Mi chiedevo se l'uso della convalida incrociata per trovare i migliori parametri di ottimizzazione per varie tecniche di apprendimento automatico è diverso dallo snooping dei dati? Stiamo verificando ripetutamente quale valore del parametro di ottimizzazione determina un miglior risultato predittivo nel set di …
Quando eseguo la convalida incrociata di k-fold, comprendo che ottieni le metriche di precisione indicando tutte le pieghe tranne una su quella piega e fai previsioni, quindi ripeti questo processo volte. Puoi quindi eseguire metriche di accuratezza su tutte le tue istanze (precisione, richiamo,% classificate correttamente), che dovrebbero essere le …
Qualcuno può spiegarmi il mio modello Cox in un inglese semplice? Ho adattato il seguente modello di regressione di Cox a tutti i miei dati usando la cphfunzione. I miei dati vengono salvati in un oggetto chiamato Data. Le variabili w, xe ysono continue; zè un fattore di due livelli. …
Penso di capire come funzionano i fondamenti del bootstrap , ma non sono sicuro di capire come posso utilizzare il bootstrap per la selezione del modello o per evitare un eccesso di adattamento. Per la selezione del modello, ad esempio, sceglieresti semplicemente il modello che produce l'errore più basso (forse …
Sto usando scikit-learn per eseguire una regressione logistica con crossvalidation su un set di dati (circa 14 parametri con> 7000 osservazioni normalizzate). Ho anche un classificatore di destinazione che ha un valore di 1 o 0. Il problema che ho è che, indipendentemente dal solutore utilizzato, continuo a ricevere avvisi …
Sto cercando di scrivere la mia funzione per l'analisi dei componenti principali, PCA (ovviamente ce ne sono già molti scritti ma sono solo interessato a implementare cose da solo). Il problema principale che ho riscontrato è la fase di convalida incrociata e il calcolo della somma dei quadrati prevista (PRESS). …
La domanda: il bootstrap è superiore al jackknifing; tuttavia, mi chiedo se ci sono casi in cui jackknifing è l'unica o almeno un'opzione praticabile per caratterizzare l'incertezza dalle stime dei parametri. Inoltre, in situazioni pratiche quanto è distorto / impreciso il jackknifing rispetto al bootstrap e i risultati del jackknife …
Attualmente, sto cercando di analizzare un set di dati di documenti di testo che non ha fondamento. Mi è stato detto che puoi usare la validazione incrociata di k-fold per confrontare diversi metodi di clustering. Tuttavia, gli esempi che ho visto in passato usano una verità fondamentale. Esiste un modo …
Nota: questa domanda è una risposta, poiché la mia domanda precedente doveva essere cancellata per motivi legali. Confrontando PROC MIXED da SAS con la funzione lmedel nlmepacchetto in R, mi sono imbattuto in alcune differenze piuttosto confuse. Più specificamente, i gradi di libertà nei diversi test differiscono tra PROC MIXEDe …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.