Spiegherò il mio problema con un esempio. Supponiamo di voler prevedere il reddito di un individuo in base ad alcuni attributi: {Età, Genere, Paese, Regione, Città}. Hai un set di dati di allenamento come questo train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", …
Chiuso. Questa domanda è fuori tema . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che sia in argomento per Cross Validated. Chiuso 2 anni fa . Sto usando il cursore per eseguire una foresta casuale convalidata in modo incrociato su un set di …
L'imputazione multipla è abbastanza semplice quando si dispone di un modello lineare a priori che si desidera stimare. Tuttavia, le cose sembrano essere un po 'più complicate quando si vuole effettivamente fare una selezione del modello (ad esempio, trovare il set "migliore" di variabili predittive da un set più ampio …
Ho un set di dati con N ~ 5000 e circa 1/2 mancante su almeno una variabile importante. Il principale metodo analitico saranno i rischi proporzionali di Cox. Ho intenzione di utilizzare l'imputazione multipla. Mi dividerò anche in un treno e un set di test. Devo dividere i dati e …
Ho un set di dati sulle prove agricole. La mia variabile di risposta è un rapporto di risposta: log (trattamento / controllo). Sono interessato a ciò che media la differenza, quindi sto eseguendo meta-regressioni RE (non ponderate, perché sembra abbastanza chiaro che la dimensione dell'effetto non è correlata alla varianza …
Vorrei un consiglio su come raggruppare i grafici / i grafici di calibrazione dopo un'imputazione multipla. Nel contesto dello sviluppo di modelli statistici al fine di prevedere un evento futuro (ad es. Utilizzando i dati dei registri ospedalieri per prevedere la sopravvivenza o gli eventi post dimissione dall'ospedale), si può …
Ho un set di dati con il presupposto che i vicini più vicini siano i migliori predittori. Solo un perfetto esempio di gradiente bidirezionale visualizzato- Supponiamo di avere casi in cui mancano pochi valori, possiamo facilmente prevedere in base ai vicini e alla tendenza. Matrice di dati corrispondente in R …
Vorrei usare l'imputazione per sostituire i valori mancanti nel mio set di dati con determinati vincoli. Ad esempio, vorrei che la variabile imputata x1fosse maggiore o uguale alla somma delle mie altre due variabili, diciamo x2e x3. Voglio anche x3essere imputato da uno 0o >= 14e voglio x2essere imputato da …
Ho un set di dati molto grande e mancano circa il 5% di valori casuali. Queste variabili sono correlate tra loro. Il seguente set di dati R è solo un esempio di giocattolo con dati correlati fittizi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), …
Sono preoccupato per il problema che vorrei avviare il bootstrap del valore p per una stima di da dati moltiplicati (MI), ma che non mi è chiaro come combinare i valori p tra i set MI.θθ\theta Per i set di dati MI, l'approccio standard per arrivare alla varianza totale delle …
Usando Amelia in R, ho ottenuto più set di dati imputati. Successivamente, ho eseguito un test di misure ripetute in SPSS. Ora voglio unire i risultati dei test. So di poter usare le regole di Rubin (implementate attraverso qualsiasi pacchetto di imputazione multipla in R) per raggruppare mezzi ed errori …
Ho ripetuto misure in 2 punti in un campione di persone. Ci sono 18k persone al momento 1 e 13k al momento 2 (5000 perse al follow-up). Voglio regredire un risultato Y misurato al tempo 2 (e il risultato non può essere misurato al tempo 1) su un insieme di …
La mia domanda in breve: ci sono metodi per migliorare il tempo di esecuzione di R MICE (imputazione dei dati)? Sto lavorando con un set di dati (30 variabili, 1,3 milioni di righe) che contiene (in modo abbastanza casuale) dati mancanti. Circa l'8% delle osservazioni in circa 15 variabili su …
Considera il seguente codice R: > data <- data.frame( a=c(NA,2,3,4,5,6),b=c(2.2,NA,6.1,8.3,10.2,12.13),c=c(4.2,7.9,NA,16.1,19.9,23)) > data a b c 1 NA 2.20 4.2 2 2 NA 7.9 3 3 6.10 NA 4 4 8.30 16.1 5 5 10.20 19.9 6 6 12.13 23.0 Come puoi vedere, ho progettato i dati in modo approssimativo c …
Supponiamo che ci venga fornito un insieme di dati del modulo e . Ci viene assegnato il compito di prevedere base ai valori di . Stimiamo due regressioni in cui: ( y , x 1 , x 2 , ⋯ , x n - 1 ) y x y( y, …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.