Statistiche e Big Data genetics

6

Selezione delle funzioni per il modello "finale" quando si esegue la validazione incrociata nell'apprendimento automatico

Mi sto confondendo un po 'sulla selezione delle funzionalità e sull'apprendimento automatico e mi chiedevo se potevi aiutarmi. Ho un set di dati di microarray che è classificato in due gruppi e ha migliaia di funzionalità. Il mio obiettivo è quello di ottenere un piccolo numero di geni (le mie …

76 machine-learning classification cross-validation feature-selection genetics

6

Con quale probabilità discenderò da una persona in particolare nata nel 1300?

In altre parole, in base a quanto segue, che cos'è p? Per rendere questo un problema di matematica piuttosto che antropologia o scienze sociali e per semplificare il problema, supponi che i compagni siano selezionati con uguale probabilità in tutta la popolazione, tranne che i fratelli e i cugini di …

26 probability stochastic-processes genetics

4

Correzione dei valori p per più test in cui i test sono correlati (genetica)

Ho valori di p da molti test e vorrei sapere se in realtà c'è qualcosa di significativo dopo aver corretto per più test. La complicazione: i miei test non sono indipendenti. Il metodo a cui sto pensando (una variante del metodo del prodotto di Fisher, Zaykin et al., Genet Epidemiol …

24 correlation multiple-comparisons statistical-significance genetics

4

Quali sono i valori corretti per precisione e richiamo nei casi limite?

La precisione è definita come: p = true positives / (true positives + false positives) È corretto che, come true positivese false positivesavvicinarsi a 0, la precisione si avvicina a 1? Stessa domanda da ricordare: r = true positives / (true positives + false negatives) Attualmente sto implementando un test …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

1

Negli studi di associazione a livello del genoma, quali sono i componenti principali?

Negli studi di associazione su tutto il genoma (GWAS): Quali sono i componenti principali? Perché sono usati? Come vengono calcolati? È possibile effettuare uno studio di associazione su tutto il genoma senza utilizzare la PCA?

20 pca genetics gwas

1

Come funziona la normalizzazione quantile?

Negli studi sull'espressione genica usando microarrays, i dati di intensità devono essere normalizzati in modo che le intensità possano essere confrontate tra individui, tra geni. Concettualmente e algoritmicamente, come funziona la "normalizzazione quantile" e come spiegheresti questo a un non statistico?

15 genetics normalization microarray

2

Calcolo della probabilità di sovrapposizione dell'elenco genico tra un set di dati RNA seq e un chip ChIP

Spero che qualcuno su questi forum possa aiutarmi con questo problema di base negli studi sull'espressione genica. Ho fatto il sequenziamento profondo di un tessuto sperimentale e di controllo. Ho quindi ottenuto valori di arricchimento di piega dei geni nel controllo sperimentale del campione. Il genoma di riferimento ha ~ …

13 r genetics bioinformatics microarray biostatistics

2

Analisi di arricchimento per livello di duplicazione genica

Sfondo biologico Nel tempo, alcune specie di piante tendono a duplicare i loro interi genomi, ottenendo una copia aggiuntiva di ciascun gene. A causa dell'instabilità di questa configurazione, molti di questi geni vengono quindi eliminati e il genoma si riorganizza e si stabilizza, pronto per duplicare nuovamente. Questi eventi di …

11 generalized-linear-model contingency-tables fishers-exact genetics bioinformatics

1

Analisi di potenza per analisi di sopravvivenza

Se ipotizzo che una firma genica identifichi soggetti a minor rischio di recidiva, ciò è diminuito di 0,5 (hazard ratio di 0,5) il tasso di eventi nel 20% della popolazione e intendo usare campioni di uno studio di coorte retrospettivo la dimensione del campione deve essere regolata per numeri dispari …

11 survival power-analysis genetics

3

Perché uno dovrebbe usare il quadrato d'età come covariata in uno studio di associazione genetica?

Perché uno dovrebbe usare l'età e il quadrato come covariate in uno studio di associazione genetica? Riesco a capire l'uso dell'età se è stato identificato come una covariata significativa, ma sono perplesso riguardo all'uso dell'età al quadrato.

11 multiple-regression polynomial predictor bioinformatics genetics

2

Penalizzazione soft-soglia vs. lazo

Sto cercando di riassumere ciò che ho capito finora nell'analisi multivariata penalizzata con insiemi di dati ad alta dimensione, e ancora faccio fatica a ottenere una definizione corretta della penalizzazione a soglia morbida rispetto al lasso (o ).L1L1L_1 Più precisamente, ho usato la regressione PLS sparsa per analizzare la struttura …

11 multivariate-analysis lasso feature-selection genetics

3

Distanza di Mahalanobis tramite PCA quando

Ho una matrice , dove è il numero di geni e è il numero di pazienti. Chiunque abbia lavorato con tali dati sa che è sempre più grande di . Usando la selezione delle funzioni ho ridotto a un numero più ragionevole, tuttavia è ancora maggiore di .p n pn×pn×pn\times …

10 correlation pca genetics covariance distance-functions

1

In che modo i bambini riescono a riunire i genitori in una proiezione PCA di un set di dati GWAS?

Prendi 20 punti casuali in uno spazio di 10.000 dimensioni con ciascuna coordinata iid da . Dividili in 10 coppie ("coppie") e aggiungi la media di ciascuna coppia ("un figlio") al set di dati. Quindi esegui PCA sui 30 punti risultanti e traccia il PC1 contro il PC2.N(0,1)N(0,1)\mathcal N(0,1) Accade …

9 pca python high-dimensional genetics gwas

1

Come calcolare l'errore standard dei rapporti di probabilità?

Ho due set di dati provenienti da studi di associazione su tutto il genoma. Le uniche informazioni disponibili sono il rapporto di probabilità e il valore p per il primo set di dati. Per il secondo set di dati ho il Odds Ratio, il valore p e le frequenze alleliche …

9 meta-analysis genetics

4

Come calcolare gli intervalli di confidenza per i rapporti dispari raggruppati nella meta-analisi?

Ho due set di dati provenienti da studi di associazione su tutto il genoma. Le uniche informazioni disponibili sono i rapporti dispari e i loro intervalli di confidenza (95%) per ciascun SNP genotipizzato. Voglio generare un diagramma forestale confrontando questi due rapporti di probabilità, ma non riesco a trovare il …

9 confidence-interval meta-analysis genetics odds-ratio

Domande taggate «genetics»