Statistiche e Big Data dataset

5

Come gestire i dati gerarchici / nidificati nell'apprendimento automatico

Spiegherò il mio problema con un esempio. Supponiamo di voler prevedere il reddito di un individuo in base ad alcuni attributi: {Età, Genere, Paese, Regione, Città}. Hai un set di dati di allenamento come questo train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

2

Quali aspetti del set di dati “Iris” lo rendono così efficace come un set di dati di esempio / insegnamento / test

Il set di dati "Iris" è probabilmente familiare alla maggior parte delle persone qui: è uno dei set di dati di test canonici e un set di dati di esempio per tutto, dalla visualizzazione dei dati all'apprendimento automatico. Ad esempio, tutti in questa domanda hanno finito per usarlo per una …

28 dataset

1

Ripetibilità informatica degli effetti da un modello più leggero

Mi sono appena imbattuto in questo documento , che descrive come calcolare la ripetibilità ( nota anche come affidabilità, nota anche come correlazione intraclasse) di una misurazione tramite la modellazione di effetti misti. Il codice R sarebbe: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

I gradi di libertà possono essere un numero non intero?

Quando uso GAM, mi dà DF residuo è (ultima riga nel codice). Cosa significa? Andando oltre l'esempio GAM, in generale, il numero di gradi di libertà può essere un numero non intero?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

9

Cosa fanno gli statistici che non possono essere automatizzati?

Il software alla fine renderà obsoleti gli statistici? Cosa si può fare che non può essere programmato in un computer?

26 machine-learning dataset careers

4

Come revisore, posso giustificare che la richiesta di dati e codice sia resa disponibile anche se il diario non lo fa?

Poiché la scienza deve essere riproducibile, per definizione, vi è un crescente riconoscimento del fatto che dati e codice sono una componente essenziale della riproducibilità, come discusso dalla tavola rotonda di Yale per la condivisione di dati e codice . Nel riesaminare un manoscritto per un giornale che non richiede …

23 dataset validation reproducible-research journals

2

Tecniche di aumento dei dati per set di dati generali?

In molte applicazioni di apprendimento automatico, i cosiddetti metodi di aumento dei dati hanno permesso di costruire modelli migliori. Ad esempio, supponi un set di addestramento di immagini di cani e gatti. Ruotando, specchiando, regolando il contrasto, ecc. È possibile generare immagini aggiuntive da quelle originali.100100100 Nel caso delle immagini, …

21 machine-learning predictive-models dataset independence data-augmentation

4

Come proiettare un nuovo vettore nello spazio PCA?

Dopo aver eseguito l'analisi dei componenti principali (PCA), voglio proiettare un nuovo vettore nello spazio PCA (ovvero trovare le sue coordinate nel sistema di coordinate PCA). Ho calcolato PCA in linguaggio R utilizzando prcomp. Ora dovrei essere in grado di moltiplicare il mio vettore per la matrice di rotazione PCA. …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

9

Overfitting e underfitting

Ho fatto alcune ricerche su overfitting e underfitting e ho capito esattamente cosa sono, ma non riesco a trovare le ragioni. Quali sono i motivi principali per eccesso e insufficiente? Perché affrontiamo questi due problemi nella formazione di un modello?

20 machine-learning dataset overfitting

1

Differenza tra dati mancanti e dati sparsi negli algoritmi di machine learning

Quali sono le principali differenze tra dati sparsi e dati mancanti? E come influenza l'apprendimento automatico? Più specificamente, quale effetto hanno i dati sparsi e quelli mancanti sugli algoritmi di classificazione e sul tipo di algoritmo di regressione (numeri predittivi). Sto parlando di una situazione in cui la percentuale di …

20 machine-learning dataset missing-data sparse

1

Supervisione a distanza: supervisionato, semi-supervisionato o entrambi?

La "supervisione a distanza" è uno schema di apprendimento in cui viene appreso un classificatore in base a un set di formazione debolmente etichettato (i dati di training vengono etichettati automaticamente in base a euristiche / regole). Penso che sia l'apprendimento supervisionato sia l'apprendimento semi-supervisionato possano includere tale "supervisione a …

20 machine-learning data-mining dataset references unsupervised-learning

5

Quali sono alcuni buoni set di dati per apprendere algoritmi di apprendimento automatico di base e perché?

Sono nuovo di machine learning e cerco alcuni set di dati attraverso i quali posso confrontare e contrastare le differenze tra i diversi algoritmi di machine learning (Decision Trees, Boosting, SVM e Neural Networks) Dove posso trovare tali set di dati? Cosa dovrei cercare considerando un set di dati? Sarebbe …

19 machine-learning dataset

4

Sono necessari buoni esempi di dati con la covariata interessata dai trattamenti

Ho esaminato molti set di dati R, pubblicazioni in DASL e altrove e non sto trovando molti esempi validi di set di dati interessanti che illustrano l'analisi della covarianza per i dati sperimentali. Esistono numerosi set di dati "giocattolo" con dati inventati nei libri di testo delle statistiche. Vorrei fare …

19 dataset ancova predictor

2

Linee guida per il controllo qualità e controllo qualità (QA / QC) per un database

sfondo Sto supervisionando l'inserimento di dati dalla letteratura primaria in un database . Il processo di immissione dei dati è soggetto a errori, in particolare perché gli utenti devono interpretare la progettazione sperimentale, estrarre dati da grafici e tabelle e trasformare i risultati in unità standardizzate. I dati vengono immessi …

18 dataset meta-analysis quality-control database

10

Set di dati dei social network

Bloccato . Questa domanda e le sue risposte sono bloccate perché la domanda è fuori tema ma ha un significato storico. Al momento non accetta nuove risposte o interazioni. Sto cercando set di dati di social network (twitter, friendfeed, facebook, lastfm, ecc.) Per compiti di classificazione, preferibilmente in formato arff. …

18 classification dataset

Domande taggate «dataset»