Statistiche e Big Data

Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati


8
Calcolo del numero ottimale di bin in un istogramma
Sono interessato a trovare un metodo il più ottimale possibile per determinare quanti contenitori dovrei usare in un istogramma. I miei dati dovrebbero variare al massimo da 30 a 350 oggetti, e in particolare sto cercando di applicare il limite (come il metodo di Otsu) in cui gli oggetti "buoni", …


9
Probabilità di un singolo evento futuro nella vita reale: cosa significa quando dicono che "Hillary ha il 75% di possibilità di vincere"?
Poiché le elezioni sono un evento unico, non è un esperimento che può essere ripetuto. Quindi, cosa significa tecnicamente esattamente l'affermazione "Hillary ha il 75% di possibilità di vincere" ? Sto cercando una definizione statisticamente corretta non intuitiva o concettuale. Sono un fan delle statistiche amatoriali che sta cercando di …

7
The Book of Why di Judea Pearl: Perché sta rubando le statistiche?
Sto leggendo Il libro del perché di Judea Pearl, e mi sta prendendo in giro 1 . In particolare, mi sembra che stia incondizionatamente basando le statistiche "classiche" sollevando un argomento da pagliaccia secondo cui le statistiche non sono mai, mai in grado di indagare sulle relazioni causali, che non …
79 causality 

5
Qual è la differenza tra apprendimento off-policy e on-policy?
Il sito Web di intelligenza artificiale definisce l'apprendimento off-policy e on-policy come segue: "Uno studente fuori dalla politica impara il valore della politica ottimale indipendentemente dalle azioni dell'agente. Q-learning è uno studente fuori dalla politica. Uno studente nella politica apprende il valore della politica eseguita dall'agente, compresi i passaggi di …

6
Come stabilire se i dati sono "raggruppati" abbastanza per consentire agli algoritmi di raggruppamento di produrre risultati significativi?
Come faresti a sapere se i tuoi dati (ad alta dimensione) mostrano un clustering sufficiente in modo che i risultati provenienti da kmean o altri algoritmi di clustering siano effettivamente significativi? Per l'algoritmo k-mean in particolare, quanto dovrebbe essere significativa una riduzione della varianza all'interno del cluster affinché i risultati …



3
Un esempio: regressione di LASSO utilizzando glmnet per il risultato binario
Sto iniziando a dilettarsi con l'uso di glmnetcon LASSO Regressione dove il mio risultato di interesse è dicotomica. Di seguito ho creato un piccolo frame di dati finti: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


3
Quando è R al quadrato negativo?
La mia comprensione è che non può essere negativo in quanto è il quadrato di R. Tuttavia ho eseguito una semplice regressione lineare in SPSS con una singola variabile indipendente e una variabile dipendente. Il mio output SPSS mi dà un valore negativo per . Se dovessi calcolare questo a …

6
Clustering sull'output di t-SNE
Ho un'applicazione in cui sarebbe utile raggruppare un set di dati rumorosi prima di cercare effetti di sottogruppo all'interno dei cluster. Ho esaminato PCA per la prima volta, ma sono necessari circa 30 componenti per arrivare al 90% della variabilità, quindi il clustering su un paio di PC genererà molte …



Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.