Statistiche e Big Data mean

2

Esiste una versione di esempio della disuguaglianza di Chebyshev unilaterale?

Sono interessato alla seguente versione unilaterale di Cantelli della disuguaglianza di Chebyshev : P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2. \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. Fondamentalmente, se conosci la media e la varianza della popolazione, puoi calcolare il limite superiore sulla probabilità di osservare un certo valore. (Questa …

32 probability mathematical-statistics probability-inequalities mean

4

Quali sono i meriti relativi dei dati Winsorizing vs. Trimming?

Winsorizing data significa sostituire i valori estremi di un set di dati con un certo valore percentile da ciascuna estremità, mentre il Trimming o Truncating comporta la rimozione di quei valori estremi. Vedo sempre entrambi i metodi discussi come un'opzione praticabile per ridurre l'effetto dei valori anomali quando si calcolano …

31 standard-deviation mean truncation trimmed-mean winsorizing

8

Sostituzione dei valori anomali con la media

Questa domanda è stata posta dal mio amico che non è esperto di Internet. Non ho un background statistico e ho cercato su Internet questa domanda. La domanda è: è possibile sostituire i valori anomali con un valore medio? se è possibile, ci sono riferimenti / riviste di libri per …

31 mean outliers robust winsorizing

5

Qual è la differenza tra "valore medio" e "media"?

Wikipedia spiega: Per un set di dati, la media è la somma dei valori divisa per il numero di valori. Questa definizione corrisponde tuttavia a ciò che chiamo "medio" (almeno è quello che ricordo di aver appreso). Eppure Wikipedia cita ancora una volta: Esistono altre misure statistiche che utilizzano campioni …

31 mean interpretation average

2

Esiste un intervallo di confidenza non parametrico affidabile per la media di una distribuzione distorta?

Le distribuzioni molto distorte come il log-normal non determinano intervalli di confidenza bootstrap accurati. Ecco un esempio che mostra che le aree di coda sinistra e destra sono lontane dall'ideale 0,025, indipendentemente dal metodo bootstrap che si prova in R: require(boot) n <- 25 B <- 1000 nsim <- 1000 …

30 confidence-interval nonparametric mean bootstrap median

4

Mean = mode implica una distribuzione simmetrica?

So che questa domanda è stata posta con il caso mean = median, ma non ho trovato nulla di correlato a mean = mode. Se la modalità è uguale alla media, posso sempre concludere che si tratta di una distribuzione simmetrica? Sarò costretto a conoscere anche la mediana per questo …

30 distributions mean skewness mode symmetry

5

Come gestire i dati gerarchici / nidificati nell'apprendimento automatico

Spiegherò il mio problema con un esempio. Supponiamo di voler prevedere il reddito di un individuo in base ad alcuni attributi: {Età, Genere, Paese, Regione, Città}. Hai un set di dati di allenamento come questo train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

10

Regressione all'errore medio rispetto al giocatore d'azzardo

Da un lato, ho la regressione alla media e dall'altro ho l' errore del giocatore . L'errore del giocatore d'azzardo è definito da Miller e Sanjurjo (2019) come "la convinzione errata che sequenze casuali abbiano una tendenza sistematica all'inversione, cioè che le serie di risultati simili hanno più probabilità di …

29 regression mean fallacy gambling

1

I gradi di libertà possono essere un numero non intero?

Quando uso GAM, mi dà DF residuo è (ultima riga nel codice). Cosa significa? Andando oltre l'esempio GAM, in generale, il numero di gradi di libertà può essere un numero non intero?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

3

In che modo trovare il centroide è diverso dal trovare la media?

Quando si esegue il clustering gerarchico, è possibile utilizzare molte metriche per misurare la distanza tra i cluster. Due di queste metriche implicano il calcolo dei centroidi e la media dei punti dati nei cluster. Qual è la differenza tra la media e il centroide? Questi non sono lo stesso …

26 clustering mean

3

Come calcolare l'intervallo di confidenza del rapporto tra due medie normali

Voglio derivare i limiti per l' intervallo di confidenza del per il rapporto di due mezzi. Supponiamo che X 1 ∼ N ( θ 1 , σ 2 ) e X 2 ∼ N ( θ 2 , σ 2 ) siano indipendenti, il rapporto medio Γ = θ 1 …

26 normal-distribution mean

3

Cosa si può concludere riguardo ai dati quando la media aritmetica è molto vicina alla media geometrica?

C'è qualcosa di significativo in una media geometrica e media aritmetica che si avvicinano molto, diciamo ~ 0,1%? Quali congetture possono essere fatte su tale set di dati? Ho lavorato sull'analisi di un set di dati e noto ironicamente che i valori sono molto, molto vicini. Non esatto, ma vicino. …

24 descriptive-statistics mean geometric-mean

4

Come sapere se la mia distribuzione dei dati è simmetrica?

So che se la mediana e la media sono approssimativamente uguali, significa che esiste una distribuzione simmetrica, ma in questo caso particolare non ne sono certo. La media e la mediana sono abbastanza vicine (solo 0,487 m / gall differenza), il che mi porterebbe a dire che c'è una distribuzione …

23 distributions mean skewness median qq-plot

4

Perché la media tende a essere più stabile in campioni diversi rispetto alla mediana?

La sezione 1.7.2 di Rilevazione delle statistiche usando R di Andy Fields, et all, mentre elenca le virtù della media rispetto alla mediana, afferma: ... la media tende ad essere stabile in diversi campioni. Questo dopo aver spiegato le molte virtù della mediana, ad es ... La mediana non è …

22 mean median

5

Cosa rende indefinita la media di alcune distribuzioni?

Molti PDF vanno da meno a infinito positivo, ma alcuni mezzi sono definiti e altri no. Quale tratto comune rende alcuni calcolabili?

21 distributions mean

Domande taggate «mean»