Statistiche e Big Data

7

Grafico per la relazione tra due variabili ordinali

Qual è un grafico appropriato per illustrare la relazione tra due variabili ordinali? Alcune opzioni che mi vengono in mente: Grafico a dispersione con jitter casuale aggiunto per fermare i punti che si nascondono l'un l'altro. Apparentemente un grafico standard - Minitab lo definisce un "diagramma di valori individuali". Secondo …

46 data-visualization categorical-data ordinal-data scatterplot

3

Qual è l'intuizione dietro le distribuzioni gaussiane condizionate?

Supponiamo che X∼N2(μ,Σ)X∼N2(μ,Σ)\mathbf{X} \sim N_{2}(\mathbf{\mu}, \mathbf{\Sigma}) . Quindi la distribuzione condizionale di X1X1X_1 dato che X2=x2X2=x2X_2 = x_2 è multivariato normalmente distribuito con media: E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2)E[P(X1|X2=x2)]=μ1+σ12σ22(x2−μ2) E[P(X_1 | X_2 = x_2)] = \mu_1+\frac{\sigma_{12}}{\sigma_{22}}(x_2-\mu_2) and variance: Var[P(X1|X2=x2)]=σ11−σ212σ22Var[P(X1|X2=x2)]=σ11−σ122σ22{\rm Var}[P(X_1 | X_2 = x_2)] = \sigma_{11}-\frac{\sigma_{12}^{2}}{\sigma_{22}} It makes sense that the variance would decrease …

46 normal-distribution multivariate-analysis intuition

8

Insidie nell'analisi delle serie storiche

Ho appena iniziato l'autoapprendimento nell'analisi delle serie storiche. Ho notato che ci sono un certo numero di potenziali insidie che non sono applicabili alle statistiche generali. Quindi, basandoci su quali sono i peccati statistici comuni? , Mi piacerebbe chiedere: Quali sono le insidie comuni o i peccati statistici nell'analisi delle …

46 time-series self-study

2

L'intuizione dietro il perché il paradosso di Stein si applica solo in dimensioni

Esempio di Stein mostra che la probabilità stima massimo di nnn variabili normalmente distribuite con mezzi μ1,…,μnμ1,…,μn\mu_1,\ldots,\mu_n e varianze 111 è inammissibile (sotto una funzione di perdita quadrato) sse n≥3n≥3n\ge 3 . Per una chiara dimostrazione, vedi il primo capitolo dell'Inferenza su larga scala: metodi di Bayes empirici per la …

46 maximum-likelihood unbiased-estimator intuition steins-phenomenon

6

Percentuale di regioni sovrapposte di due distribuzioni normali

Mi chiedevo, date due distribuzioni normali con eσ1, μ 1σ1, μ1\sigma_1,\ \mu_1σ2, μ 2σ2, μ2\sigma_2, \ \mu_2 come posso calcolare la percentuale di regioni sovrapposte di due distribuzioni? Suppongo che questo problema abbia un nome specifico, sei a conoscenza di qualche nome particolare che descriva questo problema? Sei a conoscenza …

46 normal-distribution similarities metric bhattacharyya

5

Come calcolare la pseudo-

La scrittura di Christopher Manning sulla regressione logistica in R mostra una regressione logistica in R come segue: ced.logr <- glm(ced.del ~ cat + follows + factor(class), family=binomial) Alcuni output: > summary(ced.logr) Call: glm(formula = ced.del ~ cat + follows + factor(class), family = binomial("logit")) Deviance Residuals: Min 1Q Median …

46 r logistic log-likelihood

5

Comprensione delle regressioni: il ruolo del modello

Come può essere utile un modello di regressione se non si conosce la funzione per cui si sta tentando di ottenere i parametri? Ho visto una ricerca che diceva che le madri che allattavano al seno i loro bambini avevano meno probabilità di soffrire di diabete in età avanzata. La …

46 regression modeling epidemiology log-linear

4

Cos'è una matrice di contrasto?

Che cosa è esattamente la matrice di contrasto (un termine, pertinente ad un'analisi con predittori categorici) e come viene specificata esattamente la matrice di contrasto? Cioè cosa sono le colonne, quali sono le righe, quali sono i vincoli su quella matrice e cosa significano i numeri nelle colonne je nelle …

46 regression categorical-data definition contrasts categorical-encoding

1

Comprensione "quasi tutti i minimi locali hanno un valore di funzione molto simile all'ottimale globale"

In un recente post sul blog di Rong Ge, si diceva che: Si ritiene che per molti problemi tra cui l'apprendimento di reti profonde, quasi tutti i minimi locali abbiano un valore di funzione molto simile all'ottimale globale, e quindi trovare un minimo locale è abbastanza buono. Da dove viene …

46 machine-learning neural-networks optimization deep-learning

1

Divergenza di KL tra due gaussiani multivariati

Ho problemi a derivare la formula della divergenza KL ipotizzando due distribuzioni normali multivariate. Ho fatto il caso univariato abbastanza facilmente. Tuttavia, è passato un po 'di tempo da quando ho preso le statistiche matematiche, quindi ho qualche problema ad estenderlo al caso multivariato. Sono sicuro che mi manca qualcosa …

46 normal-distribution kullback-leibler proof

6

Qual è la differenza tra stima e previsione?

Ad esempio, ho dati storici sulle perdite e sto calcolando quantili estremi (valore a rischio o probabile perdita massima). I risultati ottenuti sono per stimare la perdita o prevederli? Dove si può tracciare la linea? Sono confuso.

46 estimation predictor prediction-interval

7

Strumenti di analisi di sopravvivenza in Python [chiuso]

Mi chiedo se ci sono pacchetti per Python in grado di eseguire analisi di sopravvivenza. Ho usato il pacchetto di sopravvivenza in R ma vorrei trasferire il mio lavoro su Python.

46 survival python

6

Spiegazione intuitiva del compromesso di bias varianza?

Sto cercando una spiegazione intuitiva del compromesso di bias-varianza, sia in generale che specificamente nel contesto della regressione lineare.

46 regression variance bias

4

Normalizzazione vs. ridimensionamento

Qual è la differenza tra "Normalizzazione" dei dati e "Ridimensionamento" dei dati? Fino ad ora ho pensato che entrambi i termini si riferissero allo stesso processo, ma ora mi rendo conto che c'è qualcosa di più che non conosco / capisco. Inoltre, se esiste una differenza tra normalizzazione e ridimensionamento, …

46 data-transformation scales normality-assumption normalization

3

Interpretazione del predittore e / o della risposta trasformati in tronchi

Mi chiedo se fa differenza nell'interpretazione se solo le variabili dipendenti, dipendenti e indipendenti, o solo le variabili indipendenti, vengono trasformate in log. Considera il caso di log(DV) = Intercept + B1*IV + Error Posso interpretare il IV come l'aumento percentuale, ma come cambia quando lo faccio log(DV) = Intercept …

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model