Statistiche e Big Data

Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati


3
Qual è l'intuizione dietro le distribuzioni gaussiane condizionate?
Supponiamo che X∼N2(μ,Σ)X∼N2(μ,Σ)\mathbf{X} \sim N_{2}(\mathbf{\mu}, \mathbf{\Sigma}) . Quindi la distribuzione condizionale di X1X1X_1 dato che X2=x2X2=x2X_2 = x_2 è multivariato normalmente distribuito con media: E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2)E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2) E[P(X_1 | X_2 = x_2)] = \mu_1+\frac{\sigma_{12}}{\sigma_{22}}(x_2-\mu_2) and variance: Var[P(X1|X2=x2)]=σ11−σ212σ22Var[P(X1|X2=x2)]=σ11−σ122σ22{\rm Var}[P(X_1 | X_2 = x_2)] = \sigma_{11}-\frac{\sigma_{12}^{2}}{\sigma_{22}} It makes sense that the variance would decrease …

8
Insidie ​​nell'analisi delle serie storiche
Ho appena iniziato l'autoapprendimento nell'analisi delle serie storiche. Ho notato che ci sono un certo numero di potenziali insidie ​​che non sono applicabili alle statistiche generali. Quindi, basandoci su quali sono i peccati statistici comuni? , Mi piacerebbe chiedere: Quali sono le insidie ​​comuni o i peccati statistici nell'analisi delle …

2
L'intuizione dietro il perché il paradosso di Stein si applica solo in dimensioni
Esempio di Stein mostra che la probabilità stima massimo di nnn variabili normalmente distribuite con mezzi μ1,…,μnμ1,…,μn\mu_1,\ldots,\mu_n e varianze 111 è inammissibile (sotto una funzione di perdita quadrato) sse n≥3n≥3n\ge 3 . Per una chiara dimostrazione, vedi il primo capitolo dell'Inferenza su larga scala: metodi di Bayes empirici per la …


5
Come calcolare la pseudo-
La scrittura di Christopher Manning sulla regressione logistica in R mostra una regressione logistica in R come segue: ced.logr <- glm(ced.del ~ cat + follows + factor(class), family=binomial) Alcuni output: > summary(ced.logr) Call: glm(formula = ced.del ~ cat + follows + factor(class), family = binomial("logit")) Deviance Residuals: Min 1Q Median …




1
Divergenza di KL tra due gaussiani multivariati
Ho problemi a derivare la formula della divergenza KL ipotizzando due distribuzioni normali multivariate. Ho fatto il caso univariato abbastanza facilmente. Tuttavia, è passato un po 'di tempo da quando ho preso le statistiche matematiche, quindi ho qualche problema ad estenderlo al caso multivariato. Sono sicuro che mi manca qualcosa …





3
Interpretazione del predittore e / o della risposta trasformati in tronchi
Mi chiedo se fa differenza nell'interpretazione se solo le variabili dipendenti, dipendenti e indipendenti, o solo le variabili indipendenti, vengono trasformate in log. Considera il caso di log(DV) = Intercept + B1*IV + Error Posso interpretare il IV come l'aumento percentuale, ma come cambia quando lo faccio log(DV) = Intercept …
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.