Statistiche e Big Data multiple-comparisons

1

40.000 articoli di neuroscienze potrebbero essere sbagliati

Ho visto questo articolo sull'Economist su un documento apparentemente devastante [1] che mise in dubbio "qualcosa come 40.000 studi pubblicati [fMRI]". L'errore, dicono, è a causa di "ipotesi statistiche errate". Ho letto il documento e vedo che è in parte un problema con più correzioni di confronto, ma non sono …

67 hypothesis-testing multiple-comparisons spatial neuroimaging neuroscience

4

Guarda e troverai (una correlazione)

Ho diverse centinaia di misurazioni. Ora sto pensando di utilizzare un qualche tipo di software per correlare ogni misura con ogni misura. Ciò significa che ci sono migliaia di correlazioni. Tra questi ci dovrebbe essere (statisticamente) un'alta correlazione, anche se i dati sono completamente casuali (ogni misura ha solo circa …

66 correlation multiple-comparisons permutation-test

5

La regolazione dei valori di p in una regressione multipla per confronti multipli è una buona idea?

Supponiamo che tu sia un ricercatore / econometrico di scienze sociali che cerca di trovare predittori rilevanti della domanda di un servizio. Sono disponibili 2 variabili risultato / dipendente che descrivono la domanda (utilizzando il servizio sì / no e il numero di occasioni). Hai 10 variabili predittive / indipendenti …

54 regression multivariate-analysis predictive-models multiple-regression multiple-comparisons

3

Quando si combinano i valori p, perché non limitarsi alla media?

Di recente ho appreso il metodo di Fisher per combinare i valori p. Questo si basa sul fatto che il valore p sotto il null segue una distribuzione uniforme e che che penso sia geniale. Ma la mia domanda è: perché andare in questo modo contorto? e perché no (cosa …

44 hypothesis-testing p-value multiple-comparisons central-limit-theorem combining-p-values

5

Perché il confronto multiplo è un problema?

Trovo difficile capire quale sia realmente il problema con più confronti . Con una semplice analogia, si dice che una persona che prenderà molte decisioni farà molti errori. Si applicano quindi precauzioni molto conservative, come la correzione di Bonferroni, in modo da rendere probabile che questa persona commetta qualsiasi errore, …

44 hypothesis-testing multiple-comparisons

5

Il significato di "dipendenza positiva" come condizione per utilizzare il solito metodo per il controllo FDR

Benjamini e Hochberg hanno sviluppato il primo (e ancora più ampiamente usato, credo) metodo per controllare il tasso di scoperta falsa (FDR). Voglio iniziare con un gruppo di valori P, ciascuno per un confronto diverso, e decidere quali sono abbastanza bassi da essere chiamati una "scoperta", controllando l'FDR su un …

36 multiple-comparisons non-independent false-discovery-rate

3

Contraddizione significativa nella regressione lineare: test t significativo per un coefficiente vs statistica F complessiva non significativa

Sto adattando un modello di regressione lineare multipla tra 4 variabili categoriali (con 4 livelli ciascuna) e un output numerico. Il mio set di dati ha 43 osservazioni. La regressione mi fornisce i seguenti valori dal test per ogni coefficiente di pendenza: . Pertanto, il coefficiente per il 4 ° …

35 regression hypothesis-testing multiple-comparisons multiple-regression t-test

3

Perché c'è una differenza tra il calcolo manuale di un intervallo di confidenza della regressione logistica del 95% e l'uso della funzione confint () in R?

Carissimi, ho notato qualcosa di strano che non posso spiegare, vero? In sintesi: l'approccio manuale al calcolo di un intervallo di confidenza in un modello di regressione logistica e la funzione R confint()danno risultati diversi. Ho attraversato la regressione logistica applicata di Hosmer & Lemeshow (2a edizione). Nel terzo capitolo …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

1

Confronti multipli su un modello di effetti misti

Sto cercando di analizzare alcuni dati usando un modello a effetti misti. I dati che ho raccolto rappresentano il peso di alcuni giovani animali di diverso genotipo nel tempo. Sto usando l'approccio proposto qui: https://gribblelab.wordpress.com/2009/03/09/repeated-measures-anova-using-r/ In particolare sto usando la soluzione n. 2 Quindi ho qualcosa del genere require(nlme) model …

31 r anova mixed-model multiple-comparisons repeated-measures

5

Dati "esplorazione" vs dati "ficcanaso" / "tortura"?

Molte volte mi sono imbattuto in avvertimenti informali contro lo "snooping dei dati" (ecco un esempio divertente ) e penso di avere un'idea intuitiva di ciò che ciò significa e del perché potrebbe essere un problema. D'altra parte, l '"analisi dei dati esplorativi" sembra essere una procedura perfettamente rispettabile in …

30 multiple-comparisons interpretation eda

6

Procedura di selezione variabile per la classificazione binaria

Quali sono le selezioni variabili / caratteristiche che preferisci per la classificazione binaria quando ci sono molte più variabili / caratteristiche rispetto alle osservazioni nel set di apprendimento? Lo scopo qui è discutere qual è la procedura di selezione delle caratteristiche che riduce al meglio l'errore di classificazione. Possiamo correggere …

29 machine-learning classification multiple-comparisons multivariate-analysis feature-selection

1

Ripetibilità informatica degli effetti da un modello più leggero

Mi sono appena imbattuto in questo documento , che descrive come calcolare la ripetibilità ( nota anche come affidabilità, nota anche come correlazione intraclasse) di una misurazione tramite la modellazione di effetti misti. Il codice R sarebbe: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

2

Dovremmo affrontare più rettifiche di confronto quando si utilizzano intervalli di confidenza?

Supponiamo di avere uno scenario di confronti multipli come l' inferenza post hoc su statistiche a coppie o come una regressione multipla, in cui stiamo facendo un totale di mmm confronti. Supponiamo anche che vorremmo sostenere l'inferenza in questi multipli usando intervalli di confidenza. 1. Applichiamo più aggiustamenti di confronto …

27 confidence-interval multiple-comparisons inference

1

Confronto tra livelli di fattori dopo un GLM in R

Ecco un piccolo retroscena della mia situazione: i miei dati si riferiscono al numero di prede mangiate con successo da un predatore. Poiché il numero di prede è limitato (25 disponibili) in ogni prova, ho avuto una colonna "Campione" che rappresenta il numero di prede disponibili (quindi, 25 in ogni …

25 r generalized-linear-model references multiple-comparisons tukey-hsd

2

Come affrontare l'analisi esplorativa dei dati e il dragaggio dei dati negli studi su piccoli campioni?

L'analisi dei dati esplorativi (EDA) spesso porta ad esplorare altre "tracce" che non appartengono necessariamente alla serie iniziale di ipotesi. Devo affrontare una situazione del genere nel caso di studi con una dimensione del campione limitata e molti dati raccolti attraverso diversi questionari (dati socio-demografici, scale neuropsicologiche o mediche - …

25 multiple-comparisons epidemiology small-sample eda

Domande taggate «multiple-comparisons»