Statistiche e Big Data sample

25

Individuazione di campioni di dati disponibili gratuitamente

Ho lavorato su un nuovo metodo per analizzare e analizzare set di dati per identificare e isolare sottogruppi di una popolazione senza conoscere in anticipo le caratteristiche di alcun sottogruppo. Mentre il metodo funziona abbastanza bene con campioni di dati artificiali (ovvero set di dati creati appositamente allo scopo di …

98 dataset sample population teaching

5

Qual è la differenza tra una popolazione e un campione?

Qual è la differenza tra una popolazione e un campione? Quali variabili e statistiche comuni vengono utilizzate per ognuna e in che modo si relazionano tra loro?

38 standard-deviation variance sample population

3

R: Random Forest lancia NaN / Inf nell'errore di "richiamo della funzione esterna" nonostante nessuna NaN nel set di dati [chiuso]

Chiuso. Questa domanda è fuori tema . Al momento non accetta risposte. Vuoi migliorare questa domanda? Aggiorna la domanda in modo che sia in argomento per Cross Validated. Chiuso 2 anni fa . Sto usando il cursore per eseguire una foresta casuale convalidata in modo incrociato su un set di …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

3

Cosa succede se il campione casuale non è chiaramente rappresentativo?

Che cosa succede se si preleva un campione casuale e si vede che non è chiaramente rappresentativo, come in una domanda recente . Ad esempio, cosa succede se la distribuzione della popolazione dovrebbe essere simmetrica intorno a 0 e il campione che si estrae casualmente ha osservazioni positive e negative …

28 sampling experiment-design inference sample

1

Ripetibilità informatica degli effetti da un modello più leggero

Mi sono appena imbattuto in questo documento , che descrive come calcolare la ripetibilità ( nota anche come affidabilità, nota anche come correlazione intraclasse) di una misurazione tramite la modellazione di effetti misti. Il codice R sarebbe: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

I gradi di libertà possono essere un numero non intero?

Quando uso GAM, mi dà DF residuo è (ultima riga nel codice). Cosa significa? Andando oltre l'esempio GAM, in generale, il numero di gradi di libertà può essere un numero non intero?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

9

Come faccio a capire quale tipo di distribuzione rappresenta questi dati nei tempi di risposta del ping?

Ho provato un processo del mondo reale, i tempi di ping della rete. Il "round-trip-time" è misurato in millisecondi. I risultati sono riportati in un istogramma: I tempi di ping hanno un valore minimo, ma una lunga coda superiore. Voglio sapere che cos'è la distribuzione statistica e come stimarne i …

22 distributions sample-size sample normality-assumption distribution-identification

3

Bootstrap: il problema del sovradimensionamento

Supponiamo che uno esegua il cosiddetto bootstrap non parametrico tracciando campioni di dimensioni n ciascuno ciascuno dalle n osservazioni originali con sostituzione. Credo che questa procedura equivale a stimare la funzione di distribuzione cumulativa dal cdf empirico:BBBnnnnnn http://en.wikipedia.org/wiki/Empirical_distribution_function e quindi ottenere i campioni di bootstrap simulando osservazioni dalla stima b …

14 bootstrap sample-size sample small-sample finite-population

2

Qual è la differenza tra varianza campionaria e varianza campionaria?

Qual è la differenza tra varianza campionaria e varianza campionaria? Sembrano uguali. No?

14 sampling variance sample

3

Utilizzando la lunghezza media e il peso medio per calcolare l'IMC medio?

È valido utilizzare la lunghezza media ( hhh ) e il peso medio ( www )) di una determinata popolazione per calcolare l'indice di massa corporea media ( BMI=wh2BMI=wh2BMI = \frac{w}{h^2} ) per quella popolazione?

13 mean sample population

4

Qualche proprietà quantitativa della popolazione è un "parametro"?

Conosco relativamente bene la distinzione tra termini statistici e parametro. Vedo una statistica come il valore ottenuto dall'applicazione di una funzione ai dati di esempio. Tuttavia, la maggior parte degli esempi di parametri si riferisce alla definizione di una distribuzione parametrica. Un esempio comune è la media e la deviazione …

13 estimation terminology sample population

1

Grande campione asintotico / teoria - Perché preoccuparsene?

Spero che questa domanda non venga contrassegnata "come troppo generale" e spero che inizi una discussione a beneficio di tutti. In statistica, dedichiamo molto tempo all'apprendimento di grandi teorie campionarie. Siamo profondamente interessati a valutare le proprietà asintotiche dei nostri stimatori, incluso se sono asintoticamente imparziali, asintoticamente efficienti, la loro …

13 sample asymptotics

1

LARS vs discesa delle coordinate per il lazo

Quali sono i pro e i contro dell'utilizzo di LARS [1] rispetto all'utilizzo della discesa delle coordinate per l'adattamento della regressione lineare regolarizzata L1? Sono principalmente interessato agli aspetti prestazionali (i miei problemi tendono ad avere Ntra le centinaia di migliaia e p<20). Tuttavia, anche altre intuizioni sarebbero apprezzate. modifica: …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

2

Qual è la differenza tra variabile casuale e campione casuale?

Queste due espressioni mi hanno confuso molto quando stavo imparando le statistiche. Mi sembra che siano cose totalmente diverse. Un campione casuale consiste nel prelevare in modo casuale un campione da una popolazione, mentre una variabile casuale è come una funzione che mappa l'insieme di tutti i possibili risultati di …

13 mathematical-statistics random-variable terminology sample

2

Le competizioni di Kaggle sono state vinte per caso?

Le competizioni Kaggle determinano le classifiche finali in base a un set di prove disputato. Un set di test tenuto fuori è un campione; potrebbe non essere rappresentativo della popolazione modellata. Dato che ogni invio è come un'ipotesi, l'algoritmo che ha vinto la competizione potrebbe, per caso, aver finito per …

12 machine-learning probability hypothesis-testing sample kaggle

Domande taggate «sample»