Quali tecniche sono disponibili per il collasso (o il raggruppamento) di molte categorie a poche, allo scopo di usarle come input (predittore) in un modello statistico? Considera una variabile come quella di uno studente universitario (disciplina scelta da uno studente universitario). Non è ordinato e categorico, ma può potenzialmente avere …
Sto lavorando a un set di dati con oltre 200.000 campioni e circa 50 funzioni per campione: 10 variabili continue e le altre ~ 40 sono variabili categoriali (paesi, lingue, campi scientifici ecc.). Per queste variabili categoriche, hai ad esempio 150 paesi diversi, 50 lingue, 50 campi scientifici ecc ... …
Sembra esserci una discussione crescente sui grafici a torta. Gli argomenti principali contro di essa sembrano essere: L'area è percepita con meno potenza della lunghezza. I grafici a torta hanno un rapporto dati-punto-pixel molto basso Tuttavia, penso che possano essere in qualche modo utili nel rappresentare proporzioni. Accetto di utilizzare …
Sto costruendo un modello e penso che la posizione geografica probabilmente sarà molto brava a prevedere la mia variabile target. Ho il codice postale di ciascuno dei miei utenti. Non sono del tutto sicuro del modo migliore per includere il codice postale come funzione predittiva nel mio modello. Sebbene il …
Il pacchetto randomForest di R non può gestire il fattore con più di 32 livelli. Quando riceve più di 32 livelli, emette un messaggio di errore: Impossibile gestire i predittori categorici con più di 32 categorie. Ma i dati che ho hanno diversi fattori. Alcuni di essi hanno più di …
Sto sperimentando l'algoritmo della macchina per aumentare il gradiente tramite il caretpacchetto in R. Utilizzando un piccolo set di dati di ammissione al college, ho eseguito il seguente codice: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- …
In un modello a effetti misti la raccomandazione è di usare un effetto fisso per stimare un parametro se sono inclusi tutti i livelli possibili (ad esempio, sia maschi che femmine). Si consiglia inoltre di utilizzare un effetto casuale per tenere conto di una variabile se i livelli inclusi sono …
Molti algoritmi di machine learning, ad esempio le reti neurali, prevedono di gestire i numeri. Pertanto, quando si dispone di dati categorici, è necessario convertirli. Per categorico intendo, ad esempio: Marche di auto: Audi, BMW, Chevrolet ... ID utente: 1, 25, 26, 28 ... Anche se gli ID utente sono …
Sto lottando per trovare un metodo per ridurre il numero di categorie nei dati nominali o ordinali. Ad esempio, diciamo che voglio costruire un modello di regressione su un set di dati che ha una serie di fattori nominali e ordinali. Anche se non ho problemi con questo passaggio, mi …
Nota: questa domanda è una risposta, poiché la mia domanda precedente doveva essere cancellata per motivi legali. Confrontando PROC MIXED da SAS con la funzione lmedel nlmepacchetto in R, mi sono imbattuto in alcune differenze piuttosto confuse. Più specificamente, i gradi di libertà nei diversi test differiscono tra PROC MIXEDe …
Voglio addestrare un classificatore, diciamo SVM, o foresta casuale, o qualsiasi altro classificatore. Una delle funzionalità nel set di dati è una variabile categoriale con 1000 livelli. Qual è il modo migliore per ridurre il numero di livelli in questa variabile. In R c'è una funzione chiamata combine.levels()nel pacchetto Hmisc …
Sono consapevole del fatto che le variabili categoriali con livelli k dovrebbero essere codificate con variabili k-1 nella codifica fittizia (analogamente per le variabili categoriali multivalore). Mi chiedevo quanto fosse un problema una codifica one-hot (ovvero usando invece le variabili k) rispetto alla codifica fittizia per diversi metodi di regressione, …
Ti chiedi se qualcuno ha incontrato un pacchetto / funzione in R che combinerà i livelli di un fattore la cui proporzione di tutti i livelli in un fattore è inferiore a qualche soglia? In particolare, uno dei primi passi nella preparazione dei dati che conduco è il collasso di …
I modelli penalizzati possono essere utilizzati per stimare modelli in cui il numero di parametri è uguale o addirittura maggiore della dimensione del campione. Questa situazione può verificarsi in modelli log-lineari di grandi tabelle sparse di dati categorici o di conteggio. In queste impostazioni, è spesso anche desiderabile o utile …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.