Mi sto confondendo un po 'sulla selezione delle funzionalità e sull'apprendimento automatico e mi chiedevo se potevi aiutarmi. Ho un set di dati di microarray che è classificato in due gruppi e ha migliaia di funzionalità. Il mio obiettivo è quello di ottenere un piccolo numero di geni (le mie …
In altre parole, in base a quanto segue, che cos'è p? Per rendere questo un problema di matematica piuttosto che antropologia o scienze sociali e per semplificare il problema, supponi che i compagni siano selezionati con uguale probabilità in tutta la popolazione, tranne che i fratelli e i cugini di …
Ho valori di p da molti test e vorrei sapere se in realtà c'è qualcosa di significativo dopo aver corretto per più test. La complicazione: i miei test non sono indipendenti. Il metodo a cui sto pensando (una variante del metodo del prodotto di Fisher, Zaykin et al., Genet Epidemiol …
La precisione è definita come: p = true positives / (true positives + false positives) È corretto che, come true positivese false positivesavvicinarsi a 0, la precisione si avvicina a 1? Stessa domanda da ricordare: r = true positives / (true positives + false negatives) Attualmente sto implementando un test …
Negli studi di associazione su tutto il genoma (GWAS): Quali sono i componenti principali? Perché sono usati? Come vengono calcolati? È possibile effettuare uno studio di associazione su tutto il genoma senza utilizzare la PCA?
Negli studi sull'espressione genica usando microarrays, i dati di intensità devono essere normalizzati in modo che le intensità possano essere confrontate tra individui, tra geni. Concettualmente e algoritmicamente, come funziona la "normalizzazione quantile" e come spiegheresti questo a un non statistico?
Spero che qualcuno su questi forum possa aiutarmi con questo problema di base negli studi sull'espressione genica. Ho fatto il sequenziamento profondo di un tessuto sperimentale e di controllo. Ho quindi ottenuto valori di arricchimento di piega dei geni nel controllo sperimentale del campione. Il genoma di riferimento ha ~ …
Sfondo biologico Nel tempo, alcune specie di piante tendono a duplicare i loro interi genomi, ottenendo una copia aggiuntiva di ciascun gene. A causa dell'instabilità di questa configurazione, molti di questi geni vengono quindi eliminati e il genoma si riorganizza e si stabilizza, pronto per duplicare nuovamente. Questi eventi di …
Se ipotizzo che una firma genica identifichi soggetti a minor rischio di recidiva, ciò è diminuito di 0,5 (hazard ratio di 0,5) il tasso di eventi nel 20% della popolazione e intendo usare campioni di uno studio di coorte retrospettivo la dimensione del campione deve essere regolata per numeri dispari …
Perché uno dovrebbe usare l'età e il quadrato come covariate in uno studio di associazione genetica? Riesco a capire l'uso dell'età se è stato identificato come una covariata significativa, ma sono perplesso riguardo all'uso dell'età al quadrato.
Sto cercando di riassumere ciò che ho capito finora nell'analisi multivariata penalizzata con insiemi di dati ad alta dimensione, e ancora faccio fatica a ottenere una definizione corretta della penalizzazione a soglia morbida rispetto al lasso (o ).L1L1L_1 Più precisamente, ho usato la regressione PLS sparsa per analizzare la struttura …
Ho una matrice , dove è il numero di geni e è il numero di pazienti. Chiunque abbia lavorato con tali dati sa che è sempre più grande di . Usando la selezione delle funzioni ho ridotto a un numero più ragionevole, tuttavia è ancora maggiore di .p n pn×pn×pn\times …
Prendi 20 punti casuali in uno spazio di 10.000 dimensioni con ciascuna coordinata iid da . Dividili in 10 coppie ("coppie") e aggiungi la media di ciascuna coppia ("un figlio") al set di dati. Quindi esegui PCA sui 30 punti risultanti e traccia il PC1 contro il PC2.N(0,1)N(0,1)\mathcal N(0,1) Accade …
Ho due set di dati provenienti da studi di associazione su tutto il genoma. Le uniche informazioni disponibili sono il rapporto di probabilità e il valore p per il primo set di dati. Per il secondo set di dati ho il Odds Ratio, il valore p e le frequenze alleliche …
Ho due set di dati provenienti da studi di associazione su tutto il genoma. Le uniche informazioni disponibili sono i rapporti dispari e i loro intervalli di confidenza (95%) per ciascun SNP genotipizzato. Voglio generare un diagramma forestale confrontando questi due rapporti di probabilità, ma non riesco a trovare il …
We use cookies and other tracking technologies to improve your browsing experience on our website,
to show you personalized content and targeted ads, to analyze our website traffic,
and to understand where our visitors are coming from.
By continuing, you consent to our use of cookies and other tracking technologies and
affirm you're at least 16 years old or have consent from a parent or guardian.