Statistiche e Big Data categorical-data

1

Interpretazione dell'output .L e .Q da un GLM binomiale negativo con dati categorici

Ho appena eseguito un GLM binomiale negativo e questo è l'output: Call: glm.nb(formula = small ~ method + site + depth, data = size.dat, init.theta = 1.080668549, link = log) Deviance Residuals: Min 1Q Median 3Q Max -2.2452 -0.9973 -0.3028 0.3864 1.8727 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) …

14 r categorical-data generalized-linear-model interpretation negative-binomial

3

centrare e ridimensionare variabili fittizie

Ho un set di dati che contiene sia variabili categoriali che variabili continue. Mi è stato consigliato di trasformare le variabili categoriali in variabili binarie per ogni livello (ad esempio, A_level1: {0,1}, A_level2: {0,1}) - Penso che alcuni abbiano chiamato queste "variabili fittizie". Detto questo, sarebbe fuorviante quindi centrare e …

13 categorical-data data-transformation centering

6

Foresta casuale: come gestire i nuovi livelli di fattore nel set di test?

Sto cercando di fare previsioni usando un modello di foresta casuale in R. Tuttavia, ricevo errori poiché alcuni fattori hanno valori diversi nel set di test rispetto al set di training. Ad esempio, un fattore Cat_2ha valori 34, 68, 76, ecc., Nel set di test che non compaiono nel set …

13 r categorical-data random-forest

2

Come trasformare i dati ordinali dal questionario in dati di intervallo adeguati?

Esistono metodi semplici per trasformare i dati di livello ordinale in livello di intervallo (proprio come per fare il contrario)? Ed eseguibile in Excel o SPSS? Avendo i dati, diciamo: 10 domande a livello ordinale (diciamo scala 0-5, dove 0 = "per niente", 5 = "tutto il tempo"), voglio trasformarle …

13 categorical-data ordinal-data scales psychometrics

4

Come riassumere i dati categorici?

Ho avuto problemi con il seguente problema, si spera sia facile per gli statistici (sono un programmatore con una certa esposizione alle statistiche). Devo riassumere le risposte a un sondaggio (per la gestione). Il sondaggio ha più di 100 domande, raggruppate in diverse aree (con circa 5-10 domande per area). …

13 categorical-data data-transformation descriptive-statistics

2

Catturare la stagionalità nella regressione multipla per i dati giornalieri

Ho un dato di vendita giornaliero per un prodotto che è altamente stagionale. Voglio catturare la stagionalità nel modello di regressione. Ho letto che se disponi di dati trimestrali o mensili, in quel caso puoi creare rispettivamente 3 e 11 variabili fittizie - ma posso gestire i dati giornalieri? Ho …

13 regression time-series multiple-regression categorical-data

2

Comprensione della creazione di variabili fittizie (manuali o automatizzate) in GLM

Se nella formula glm viene utilizzata una variabile fattore (ad es. Genere con livelli M e F), vengono create variabili dummy, che possono essere trovate nel riepilogo del modello glm insieme ai coefficienti associati (ad es. GenderM) Se, invece di fare affidamento su R per suddividere il fattore in questo …

13 r generalized-linear-model categorical-data categorical-encoding

2

Le migliori pratiche per la codifica di caratteristiche categoriche per gli alberi decisionali?

Quando si codificano le caratteristiche categoriche per la regressione lineare, esiste una regola: il numero di manichini dovrebbe essere uno in meno del numero totale di livelli (per evitare la collinearità). Esiste una regola simile per gli alberi decisionali (in sacchi, potenziati)? Lo sto chiedendo perché una pratica standard in …

13 categorical-data random-forest cart boosting

1

Regressione logistica ordinale in Python

Vorrei eseguire una regressione logistica ordinale in Python - per una variabile di risposta con tre livelli e con alcuni fattori esplicativi. Il statsmodelspacchetto supporta i modelli binary logit e multinomial logit (MNLogit), ma non il logit ordinato. Dal momento che la matematica di base non è così diversa, mi …

12 categorical-data python logit ordered-logit statsmodels

3

Stima della massima verosimiglianza della distribuzione congiunta dati solo conteggi marginali

Sia una distribuzione congiunta di due variabili categoriali , con . Supponiamo che da questa distribuzione siano stati estratti campioni, ma ci vengono dati solo i conteggi marginali, vale a dire per : X , Y x , y ∈ { 1 , … , K } n j = …

12 categorical-data maximum-likelihood joint-distribution marginal maximum-entropy

5

Come eseguire l'imputazione dei valori in un numero molto elevato di punti dati?

Ho un set di dati molto grande e mancano circa il 5% di valori casuali. Queste variabili sono correlate tra loro. Il seguente set di dati R è solo un esempio di giocattolo con dati correlati fittizi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

Inversione di bacche

Ho un ampio set di dati di mercato aggregati sulle vendite di vino negli Stati Uniti e vorrei stimare la domanda di determinati vini di alta qualità. Queste quote di mercato sono state fondamentalmente derivate da un modello di utilità casuale nella forma dove include caratteristiche del prodotto rilevate, indica …

12 logistic estimation multiple-regression categorical-data

3

La procedura di effetti fissi di Mundlak è applicabile per la regressione logistica con i manichini?

Ho un set di dati con 8000 cluster e 4 milioni di osservazioni. Sfortunatamente il mio software statistico, Stata, funziona piuttosto lentamente quando si usa la sua funzione di dati del pannello per la regressione logistica:, xtlogitanche con un sottocampione del 10%. Tuttavia, quando si utilizza la logitfunzione non pannello …

12 logistic categorical-data stata fixed-effects-model

1

Differenze tra PROC Mixed e lme / lmer in R - gradi di libertà

Nota: questa domanda è una risposta, poiché la mia domanda precedente doveva essere cancellata per motivi legali. Confrontando PROC MIXED da SAS con la funzione lmedel nlmepacchetto in R, mi sono imbattuto in alcune differenze piuttosto confuse. Più specificamente, i gradi di libertà nei diversi test differiscono tra PROC MIXEDe …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

3

Modo appropriato per gestire una tabella di contingenza a 3 livelli

Ho una tabella di contingenza a tre livelli, con i dati di conteggio per diverse specie, la pianta ospite da cui sono state raccolte e se quella raccolta è avvenuta in una giornata piovosa (questo in realtà conta!). Usando R, i dati falsi potrebbero essere qualcosa del genere: count <- …

12 r categorical-data log-linear

Domande taggate «categorical-data»