Statistiche e Big Data

Domande e risposte per le persone interessate alle statistiche, all'apprendimento automatico, all'analisi dei dati, al data mining e alla visualizzazione dei dati



2
Regolazione per le covariate nell'analisi della curva ROC
Questa domanda riguarda la stima dei punteggi di cut-off su un questionario di screening multidimensionale per prevedere un endpoint binario, in presenza di scale correlate. Mi è stato chiesto l'interesse del controllo per i punteggi secondari associati quando ho ideato i punteggi di cut-off su ogni dimensione di una scala …
20 epidemiology  roc 

6
Buona risorsa per capire ANOVA e ANCOVA?
Sto conducendo esperimenti per un documento e sto cercando un libro / sito web interessante per capire correttamente come funzionano ANOVA e ANCOVA. Ho una buona preparazione matematica quindi non ho necessariamente bisogno di una spiegazione volgare. Vorrei anche sapere come determinare quando utilizzare ANOVA anziché ANCOVA.

14
Software per l'esplorazione dei dati semplice ma robusta
Nei miei tentativi di combattere il caos dei fogli di calcolo, sono spesso evangelico nel cercare strumenti più solidi come il vero software di statistica (R, Stata e simili). Di recente, sono stato sfidato da questo punto di vista da qualcuno che ha dichiarato chiaramente che semplicemente non impareranno a …

4
Algoritmi di Metropolis-Hastings utilizzati nella pratica
Oggi stavo leggendo il blog di Christian Robert e mi è piaciuto molto il nuovo algoritmo Metropolis-Hastings di cui stava discutendo. Sembrava semplice e facile da implementare. Ogni volta che codifico MCMC, tendo a rimanere con algoritmi MH molto basilari, come mosse indipendenti o passeggiate casuali sulla scala del registro. …

3
Applicare il "trucco del kernel" ai metodi lineari?
Il trucco del kernel viene utilizzato in diversi modelli di machine learning (ad es. SVM ). È stato introdotto per la prima volta nel documento "Fondamenti teorici del potenziale metodo di funzione nell'apprendimento del riconoscimento di schemi" nel 1964. La definizione di Wikipedia dice che lo è un metodo per …


4
Quali sono i valori corretti per precisione e richiamo nei casi limite?
La precisione è definita come: p = true positives / (true positives + false positives) È corretto che, come true positivese false positivesavvicinarsi a 0, la precisione si avvicina a 1? Stessa domanda da ricordare: r = true positives / (true positives + false negatives) Attualmente sto implementando un test …
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

6
Il mio meteorologo è preciso?
Una domanda che mi ha disturbato per qualche tempo, che non so come affrontare: Ogni giorno, il mio meteorologo offre una probabilità percentuale di pioggia (supponiamo che sia calcolato su 9000 cifre e non ha mai ripetuto un numero). Ogni giorno successivo piove o non piove. Ho anni di dati …



4
Qual è un limite inferiore stretto sul tempo di raccolta dei coupon?
Nel classico problema del Coupon Collector , è noto che il tempo necessario per completare una serie di coupon scelti a caso soddisfa , e .TTTnnnE[T]∼nlnnE[T]∼nln⁡nE[T] \sim n \ln n Var(T)∼n2Var(T)∼n2Var(T) \sim n^2Pr(T&gt;nlnn+cn)&lt;e−cPr(T&gt;nln⁡n+cn)&lt;e−c\Pr(T > n \ln n + cn) < e^{-c} Questo limite superiore è migliore di quello dato dalla …


4
Un modello è adattato ai dati o i dati sono adattati a un modello?
Esiste una differenza concettuale o procedurale tra l'adattamento di un modello ai dati e l'adattamento dei dati al modello? Un esempio della prima formulazione può essere visto in https://courses.washington.edu/matlab1/ModelFitting.html e della seconda in https://reference.wolfram.com/applications/eda/FittingDataToLinearModelsByLeast-SquaresTechniques.html .

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.