Quando i dati presentano mancanza di informazioni (lacune), ovvero non sono completi. Pertanto, è importante considerare questa funzione quando si esegue un'analisi o un test.
Sto iniziando a dilettarsi con l'uso di glmnetcon LASSO Regressione dove il mio risultato di interesse è dicotomica. Di seguito ho creato un piccolo frame di dati finti: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) …
Quali sono i motivi teorici per non gestire i valori mancanti? Macchine a gradiente, gli alberi di regressione gestiscono i valori mancanti. Perché Random Forest non lo fa?
Mi riferisco a questo documento: Hayes JR, Groner JI. "Utilizzo di punteggi multipli di imputazione e propensione per testare l'effetto dei seggiolini auto e dell'utilizzo delle cinture di sicurezza sulla gravità delle lesioni dai dati del registro dei traumi." J Pediatr Surg. Maggio 2008; 43 (5): 924-7. In questo studio, …
Ho un set di dati. Ci sono molti valori mancanti. Per alcune colonne, il valore mancante è stato sostituito con -999, ma in altre colonne il valore mancante è stato contrassegnato come "NA". Perché dovremmo usare -999 per sostituire il valore mancante?
Vorrei regredire un vettore B contro ciascuna delle colonne in una matrice A. Questo è banale se non ci sono dati mancanti, ma se la matrice A contiene valori mancanti, la mia regressione contro A è limitata per includere solo le righe in cui tutti sono presenti valori (il comportamento …
Chiuso. Questa domanda è fuori tema . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che sia in argomento per Cross Validated. Chiuso 2 anni fa . Sto usando il cursore per eseguire una foresta casuale convalidata in modo incrociato su un set di …
Preferisco di gran lunga il caret per la sua capacità di regolazione dei parametri e l'interfaccia uniforme, ma ho osservato che richiede sempre set di dati completi (cioè senza NA) anche se il modello "nudo" applicato consente le NA. Ciò è molto fastidioso, in quanto si dovrebbero applicare metodi di …
Sto cercando di sviluppare un modello predittivo utilizzando dati clinici ad alta dimensione, compresi i valori di laboratorio. Lo spazio dati è scarso con 5k campioni e 200 variabili. L'idea è quella di classificare le variabili utilizzando un metodo di selezione delle funzionalità (IG, RF ecc.) E utilizzare funzionalità di …
Ho letto un paio di spiegazioni dell'algoritmo EM (ad es. Da Bishop's Pattern Recognition and Machine Learning e da Roger and Gerolami First Course on Machine Learning). La derivazione di EM è ok, lo capisco. Capisco anche perché l'algoritmo copre qualcosa: ad ogni passo miglioriamo il risultato e la probabilità …
Nota: sto pubblicando una domanda di un mio ex studente incapace di pubblicare da solo per motivi tecnici. Dato un esempio iid da una distribuzione Weibull con pdf c'è un'utile rappresentazione variabile mancante e quindi un algoritmo EM (aspettativa-massimizzazione) associato che potrebbe essere usato per trovare l'MLE di , invece …
Ho usato la prcomp()funzione per eseguire un PCA (analisi del componente principale) in R. Tuttavia, c'è un bug in quella funzione in modo che il na.actionparametro non funzioni. Ho chiesto aiuto su stackoverflow ; due utenti hanno offerto due modi diversi di trattare i NAvalori. Tuttavia, il problema con entrambe …
Quali sono i metodi utilizzati dagli algoritmi di apprendimento dell'albero decisionale per gestire i valori mancanti. Semplicemente riempiono lo slot usando un valore chiamato missing? Grazie.
Ho una vasta gamma di vettori di funzionalità che userò per attaccare un problema di classificazione binaria (usando scikit learn in Python). Prima di iniziare a pensare all'imputazione, sono interessato a cercare di determinare dalle parti rimanenti dei dati se i dati mancanti sono "mancanti a caso" o mancanti non …
Ho usato l'imputazione multipla per ottenere un numero di set di dati completati. Ho usato i metodi bayesiani su ciascuno dei set di dati completati per ottenere distribuzioni posteriori per un parametro (un effetto casuale). Come posso combinare / raggruppare i risultati per questo parametro? Più contesto: Il mio modello …
Quali sono le principali differenze tra dati sparsi e dati mancanti? E come influenza l'apprendimento automatico? Più specificamente, quale effetto hanno i dati sparsi e quelli mancanti sugli algoritmi di classificazione e sul tipo di algoritmo di regressione (numeri predittivi). Sto parlando di una situazione in cui la percentuale di …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.