Statistiche e Big Data categorical-data

5

Come gestire i dati gerarchici / nidificati nell'apprendimento automatico

Spiegherò il mio problema con un esempio. Supponiamo di voler prevedere il reddito di un individuo in base ad alcuni attributi: {Età, Genere, Paese, Regione, Città}. Hai un set di dati di allenamento come questo train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

I gradi di libertà possono essere un numero non intero?

Quando uso GAM, mi dà DF residuo è (ultima riga nel codice). Cosa significa? Andando oltre l'esempio GAM, in generale, il numero di gradi di libertà può essere un numero non intero?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

4

Previsione con caratteristiche sia continue che categoriche

Alcune tecniche di modellazione predittiva sono più progettate per gestire predittori continui, mentre altre sono migliori per gestire variabili categoriche o discrete. Naturalmente esistono tecniche per trasformare un tipo in un altro (discretizzazione, variabili fittizie, ecc.). Tuttavia, esistono delle tecniche di modellazione predittiva progettate per gestire entrambi i tipi di …

26 classification predictive-models categorical-data continuous-data discrete-data

3

Interpretazione dei termini di interazione nella regressione del logit con variabili categoriali

Ho i dati di un esperimento di indagine in cui gli intervistati sono stati assegnati in modo casuale a uno dei quattro gruppi: > summary(df$Group) Control Treatment1 Treatment2 Treatment3 59 63 62 66 Mentre i tre gruppi di trattamento variano leggermente nello stimolo applicato, la principale distinzione a cui tengo …

25 r logistic categorical-data interaction interpretation

1

Regressione con solo variabili categoriali

È possibile condurre una regressione se tutte le variabili dipendenti e indipendenti sono variabili categoriali?

24 regression logistic categorical-data

1

Come visualizzare un'enorme tabella di contingenza sparsa?

Ho due variabili: Drug Name (DN) e corrispondenti eventi avversi (AE), che si trovano in una relazione molti-a-molti. Ci sono 33.556 nomi di farmaci e 9.516 eventi avversi. La dimensione del campione è di circa 5,8 milioni di osservazioni. Voglio studiare e comprendere l'associazione / relazione tra DN e AE. …

24 r categorical-data data-visualization large-data association-measure

3

L'ora del giorno è una variabile categoriale?

"L'ora del giorno" in cui il valore può essere 0, 1, 2, ..., 23 è una variabile categoriale? Sarei tentato di dire di no, dal momento che 5, ad esempio, è "più vicino" a 4 o 6 che a 3 o 7. D'altra parte, c'è una discontinuità tra 23 e …

24 categorical-data circular-statistics

3

Distribuzione binomiale negativa vs distribuzione binomiale

Qual è la differenza tra la distribuzione binomiale negativa e la distribuzione binomiale? Ho provato a leggere online e ho scoperto che la distribuzione binomiale negativa viene utilizzata quando i punti dati sono discreti, ma penso che anche la distribuzione binomiale possa essere utilizzata per punti dati discreti.

22 categorical-data data-mining binomial negative-binomial

3

Perché dobbiamo codificare le variabili categoriali

Non sono sicuro del motivo per cui dobbiamo codificare le variabili categoriali. Ad esempio, se ho una variabile categoriale con quattro possibili valori 0,1,2,3 posso sostituirla con due dimensioni. Se la variabile avesse valore 0, avrebbe 0,0 nelle due dimensioni, se avesse 3, avrebbe 1,1 nelle due dimensioni e così …

22 categorical-data categorical-encoding

1

Eliminazione di una delle colonne quando si utilizza la codifica a caldo

La mia comprensione è che nell'apprendimento automatico può essere un problema se il tuo set di dati ha caratteristiche altamente correlate, poiché codificano effettivamente le stesse informazioni. Recentemente qualcuno ha sottolineato che quando si esegue la codifica one-hot su una variabile categoriale si finisce con funzionalità correlate, quindi è necessario …

22 regression machine-learning categorical-data discrete-data categorical-encoding

8

Come puoi visualizzare la relazione tra 3 variabili categoriche?

Ho un set di dati con tre variabili categoriali e voglio visualizzare la relazione tra tutti e tre in un grafico. Qualche idea? Attualmente sto usando i seguenti tre grafici: Ogni grafico è per un livello di depressione basale (lieve, moderato, grave). Quindi, all'interno di ogni grafico, guardo la relazione …

21 r data-visualization categorical-data

4

Come proiettare un nuovo vettore nello spazio PCA?

Dopo aver eseguito l'analisi dei componenti principali (PCA), voglio proiettare un nuovo vettore nello spazio PCA (ovvero trovare le sue coordinate nel sistema di coordinate PCA). Ho calcolato PCA in linguaggio R utilizzando prcomp. Ora dovrei essere in grado di moltiplicare il mio vettore per la matrice di rotazione PCA. …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

1

Regressione per variabili indipendenti categoriali e dipendente continuo

Ho appena capito che ho sempre lavorato al problema della regressione in cui le variabili indipendenti erano sempre numeriche. Posso usare la regressione lineare nel caso in cui tutte le variabili indipendenti siano categoriche?

20 regression categorical-data

4

Quali sono i valori corretti per precisione e richiamo nei casi limite?

La precisione è definita come: p = true positives / (true positives + false positives) È corretto che, come true positivese false positivesavvicinarsi a 0, la precisione si avvicina a 1? Stessa domanda da ricordare: r = true positives / (true positives + false negatives) Attualmente sto implementando un test …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

5

Qual è il modo migliore per visualizzare la relazione tra variabili discrete e continue?

Qual è il modo migliore per mostrare una relazione tra: variabile continua e discreta, due variabili discrete? Finora ho usato grafici a dispersione per esaminare la relazione tra variabili continue. Tuttavia, in caso di variabili discrete, i punti dati vengono cumulati a determinati intervalli. Pertanto, la linea della migliore misura …

19 data-visualization categorical-data random-variable

Domande taggate «categorical-data»