Spero che qualcuno su questi forum possa aiutarmi con questo problema di base negli studi sull'espressione genica.
Ho fatto il sequenziamento profondo di un tessuto sperimentale e di controllo. Ho quindi ottenuto valori di arricchimento di piega dei geni nel controllo sperimentale del campione. Il genoma di riferimento ha ~ 15.000 geni. 3.000 su 15.000 geni sono arricchiti al di sopra di un certo limite nel mio campione di interesse rispetto al controllo.
Quindi: A = popolazione genica totale = 15.000 B = sottopopolazione arricchita di RNA-Seq = 3.000.
In un precedente esperimento con chip ChIP, ho trovato 400 geni arricchiti con chip ChIP. Dei 400 geni ChIP-chip, 100 geni fanno parte del gruppo di 3.000 trascrizioni arricchite di RNA-Seq.
Quindi: C = numero totale di geni arricchiti con chip ChIP = 400.
Qual è la probabilità che i miei 100 geni ChIP-chip vengano arricchiti dall'RNA-Seq solo per caso? In altre parole, qual è il modo più prudente per calcolare se la mia sovrapposizione osservata tra B e C (100 geni) è migliore di quella ottenuta solo per caso? Da quello che ho letto finora, il modo migliore per testarlo è usare la distribuzione ipergeometrica.
Ho usato un calcolatore online (stattrek.com) per impostare un test di distribuzione ipergeometrica con i seguenti parametri: - dimensione pop = 15.000 - # di successi nella popolazione = 3.000 - dimensione del campione = 400, - # di successi nel campione = 100. Ottengo quanto segue per Probabilità ipergeometrica P (x = 100) = 0,00224050636447747
Il numero effettivo di geni che si sovrappongono tra B e C = 100. È meglio che solo per caso? Non sembra che sia se la possibilità che un singolo gene venga arricchito è 1: 5 (3.000 su 15.000). Ecco perché non capisco come mai la mia P (x = 100) che ho calcolato sopra sia 0,0022. Ciò equivale a una probabilità dello 0,2% della sovrapposizione che si verifica per caso. Non dovrebbe essere molto più alto?
Se campionassi 400 geni casuali nella grande lista di 15.000, allora ci si aspetterebbe che 80 di questi geni si arricchissero solo per caso (1: 5). Il numero di geni effettivamente sovrapposti è 100, quindi è leggermente migliore che per caso.
Ho anche cercato di trovare una soluzione usando le funzioni Dhyper o Phyper in R (usando ciò che ho visto in un altro post): A = tutti i geni del genoma (15.000) B = geni arricchiti di RNA-Seq (3.000) C = ChIP -chip arricched geni (400) Ecco l'input / output R (adattato da un precedente post di scambio di stack):
> totalpop <- 15000
> sample1 <- 3000
> sample2 <- 400
> dhyper(0:2, sample1, totalpop-sample1, sample2)
[1] 4.431784e-40 4.584209e-38 2.364018e-36
> phyper(-1:2, sample1, totalpop-sample1, sample2)
[1] 0.000000e+00 4.431784e-40 4.628526e-38 2.410304e-36
Non sono sicuro di come interpretare questi numeri. Credo che 2.36e-36 sia la probabilità di ottenere una sovrapposizione completa tra B e C solo per caso? Ma questo non ha senso, poiché quella probabilità è molto più vicina all'1: 5. Se comincio con 15.000 geni, 3000 saranno arricchiti. Allo stesso modo, se inizio con 400 geni ChIP-chip, 80 di questi dovrebbero essere arricchiti nel solo RNA-Seq a causa delle possibilità 1: 5 di arricchimento in quel set di dati.
Qual è il modo corretto di calcolare il valore p, secondo la distribuzione ipergeometrica, per la sovrapposizione di B e C?