Statistiche e Big Data group-differences

3

Un esempio: regressione di LASSO utilizzando glmnet per il risultato binario

Sto iniziando a dilettarsi con l'uso di glmnetcon LASSO Regressione dove il mio risultato di interesse è dicotomica. Di seguito ho creato un piccolo frame di dati finti: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) …

78 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

5

Qual è la dimensione dell'effetto ... e perché è persino utile?

Ho un background statistico di livello introduttivo (suppongo di conoscere statistiche matematiche e probabilità a livello universitario (ad es. Wackerly et al., Probabilità di Ross) e avere una certa conoscenza della teoria delle misure). Di recente ho iniziato un lavoro facendo progettazione sperimentale e rapporti statistici nelle statistiche sull'istruzione e …

18 effect-size group-differences

3

Confronto di elenchi classificati

Supponiamo che due gruppi, composti da e n 2, ciascuno classifichi un insieme di 25 elementi dal più al meno importante. Quali sono i modi migliori per confrontare queste classifiche?n1n1n_1n2n2n_2 Chiaramente, è possibile eseguire 25 test di Mann-Whitney U, ma ciò comporterebbe 25 risultati di test da interpretare, che possono …

15 ranking group-differences

2

Dimensioni del campione non uguali: quando chiamarlo si chiude

Sto recensendo un articolo di un giornale accademico e gli autori hanno scritto quanto segue come giustificazione per non riportare alcuna statistica inferenziale (ho deidentificato la natura dei due gruppi): In totale, 25 dei 2,349 (1,1%) rispondenti presentate X . Ci asteniamo in modo appropriato dalla presentazione di analisi che …

14 hypothesis-testing sample-size power-analysis power group-differences

5

Come eseguire l'imputazione dei valori in un numero molto elevato di punti dati?

Ho un set di dati molto grande e mancano circa il 5% di valori casuali. Queste variabili sono correlate tra loro. Il seguente set di dati R è solo un esempio di giocattolo con dati correlati fittizi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

R / mgcv: Perché i prodotti tensor te () e ti () producono superfici diverse?

Il mgcvpacchetto per Rha due funzioni per adattare le interazioni del prodotto tensore: te()e ti(). Comprendo la divisione di base del lavoro tra i due (adattamento di un'interazione non lineare rispetto alla scomposizione di questa interazione in effetti principali e un'interazione). Quello che non capisco è perché te(x1, x2)e ti(x1) …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

2

Confronta il significato statistico della differenza tra due regressioni polinomiali in R

Quindi, prima di tutto, ho fatto alcune ricerche su questo forum e so che sono state poste domande molto simili, ma di solito non hanno ricevuto una risposta corretta o, a volte, la risposta non è abbastanza dettagliata da poter essere compresa. Quindi questa volta la mia domanda è: ho …

10 r regression statistical-significance regression-coefficients group-differences

1

Come posso incorporare un valore anomalo innovativo all'osservazione 48 nel mio modello ARIMA?

Sto lavorando su un set di dati. Dopo aver usato alcune tecniche di identificazione del modello, sono uscito con un modello ARIMA (0,2,1). Ho usato la detectIOfunzione nel pacchetto TSAin R per rilevare un valore anomalo innovativo (IO) alla 48a osservazione del mio set di dati originale. Come posso incorporare …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

1

Perché Anova () e drop1 () hanno fornito risposte diverse per i GLMM?

Ho un GLMM del modulo: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Quando uso drop1(model, test="Chi"), ottengo risultati diversi rispetto a quelli che utilizzo Anova(model, type="III")dal pacchetto auto o summary(model). Questi ultimi due danno le stesse risposte. Usando un mucchio di dati fabbricati, …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

4

Modello di storia degli eventi a tempo discreto (Sopravvivenza) in R

Sto cercando di adattare un modello a tempo discreto in R, ma non sono sicuro di come farlo. Ho letto che puoi organizzare la variabile dipendente in diverse righe, una per ogni osservazione temporale e utilizzare la glmfunzione con un collegamento logit o cloglog. In questo senso, ho tre colonne: …

10 r survival pca sas matlab neural-networks r logistic spatial spatial-interaction-model r time-series econometrics var statistical-significance t-test cross-validation sample-size r regression optimization least-squares constrained-regression nonparametric ordinal-data wilcoxon-signed-rank references neural-networks jags bugs hierarchical-bayesian gaussian-mixture r regression svm predictive-models libsvm scikit-learn probability self-study stata sample-size spss wilcoxon-mann-whitney survey ordinal-data likert group-differences r regression anova mathematical-statistics normal-distribution random-generation truncation repeated-measures variance variability distributions random-generation uniform regression r generalized-linear-model goodness-of-fit data-visualization r time-series arima autoregressive confidence-interval r time-series arima autocorrelation seasonality hypothesis-testing bayesian frequentist uninformative-prior correlation matlab cross-correlation

2

Indagare sulle differenze tra le popolazioni

Supponiamo di avere un campione di due popolazioni: Ae B. Supponiamo che queste popolazioni siano composte da individui e scegliamo di descriverli in termini di caratteristiche. Alcune di queste funzioni sono categoriche (ad esempio, guidano per funzionare?) E alcune sono numeriche (ad esempio, la loro altezza). Chiamiamo queste funzionalità: . …

9 anova random-forest cart group-differences

1

Come confrontare gli eventi osservati con quelli previsti?

Supponiamo di avere un campione di frequenze di 4 possibili eventi: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 e ho le probabilità attese dei miei eventi: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Con la somma delle frequenze osservate dei …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

3

Come verificare se la media del sottogruppo differisce dal gruppo complessivo che include il sottogruppo?

Come posso verificare se la media (ad esempio, la pressione sanguigna) di un sottogruppo (ad esempio, quelli che sono morti) differisce da tutto il gruppo (ad esempio, tutti coloro che hanno avuto la malattia, compresi quelli che sono morti)? Chiaramente, il primo è un sottogruppo del secondo. Quale test di …

9 hypothesis-testing group-differences

2

Bootstrap parametrico, semiparametrico e non parametrico per modelli misti

I seguenti innesti sono presi da questo articolo . Sono un novizio di bootstrap e sto cercando di implementare il bootstrap bootstrap parametrico, semiparametrico e non parametrico per il modello misto lineare con R bootpacchetto. Codice R Ecco il mio Rcodice: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + …

9 r mixed-model bootstrap central-limit-theorem stable-distribution time-series hypothesis-testing markov-process r correlation categorical-data association-measure meta-analysis r anova confidence-interval lm r bayesian multilevel-analysis logit regression logistic least-squares eda regression notation distributions random-variable expected-value distributions markov-process hidden-markov-model r variance group-differences microarray r descriptive-statistics machine-learning references r regression r categorical-data random-forest data-transformation data-visualization interactive-visualization binomial beta-distribution time-series forecasting logistic arima beta-regression r time-series seasonality large-data unevenly-spaced-time-series correlation statistical-significance normalization population group-differences demography

Domande taggate «group-differences»