Calcolo della probabilità di sovrapposizione dell'elenco genico tra un set di dati RNA seq e un chip ChIP


13

Spero che qualcuno su questi forum possa aiutarmi con questo problema di base negli studi sull'espressione genica.

Ho fatto il sequenziamento profondo di un tessuto sperimentale e di controllo. Ho quindi ottenuto valori di arricchimento di piega dei geni nel controllo sperimentale del campione. Il genoma di riferimento ha ~ 15.000 geni. 3.000 su 15.000 geni sono arricchiti al di sopra di un certo limite nel mio campione di interesse rispetto al controllo.

Quindi: A = popolazione genica totale = 15.000 B = sottopopolazione arricchita di RNA-Seq = 3.000.

In un precedente esperimento con chip ChIP, ho trovato 400 geni arricchiti con chip ChIP. Dei 400 geni ChIP-chip, 100 geni fanno parte del gruppo di 3.000 trascrizioni arricchite di RNA-Seq.

Quindi: C = numero totale di geni arricchiti con chip ChIP = 400.

Qual è la probabilità che i miei 100 geni ChIP-chip vengano arricchiti dall'RNA-Seq solo per caso? In altre parole, qual è il modo più prudente per calcolare se la mia sovrapposizione osservata tra B e C (100 geni) è migliore di quella ottenuta solo per caso? Da quello che ho letto finora, il modo migliore per testarlo è usare la distribuzione ipergeometrica.

Ho usato un calcolatore online (stattrek.com) per impostare un test di distribuzione ipergeometrica con i seguenti parametri: - dimensione pop = 15.000 - # di successi nella popolazione = 3.000 - dimensione del campione = 400, - # di successi nel campione = 100. Ottengo quanto segue per Probabilità ipergeometrica P (x = 100) = 0,00224050636447747

Il numero effettivo di geni che si sovrappongono tra B e C = 100. È meglio che solo per caso? Non sembra che sia se la possibilità che un singolo gene venga arricchito è 1: 5 (3.000 su 15.000). Ecco perché non capisco come mai la mia P (x = 100) che ho calcolato sopra sia 0,0022. Ciò equivale a una probabilità dello 0,2% della sovrapposizione che si verifica per caso. Non dovrebbe essere molto più alto?

Se campionassi 400 geni casuali nella grande lista di 15.000, allora ci si aspetterebbe che 80 di questi geni si arricchissero solo per caso (1: 5). Il numero di geni effettivamente sovrapposti è 100, quindi è leggermente migliore che per caso.

Ho anche cercato di trovare una soluzione usando le funzioni Dhyper o Phyper in R (usando ciò che ho visto in un altro post): A = tutti i geni del genoma (15.000) B = geni arricchiti di RNA-Seq (3.000) C = ChIP -chip arricched geni (400) Ecco l'input / output R (adattato da un precedente post di scambio di stack):

> totalpop <- 15000    
> sample1 <- 3000    
> sample2 <- 400    
> dhyper(0:2, sample1, totalpop-sample1, sample2)    
[1] 4.431784e-40 4.584209e-38 2.364018e-36    
> phyper(-1:2, sample1, totalpop-sample1, sample2)    
[1] 0.000000e+00 4.431784e-40 4.628526e-38 2.410304e-36    

Non sono sicuro di come interpretare questi numeri. Credo che 2.36e-36 sia la probabilità di ottenere una sovrapposizione completa tra B e C solo per caso? Ma questo non ha senso, poiché quella probabilità è molto più vicina all'1: 5. Se comincio con 15.000 geni, 3000 saranno arricchiti. Allo stesso modo, se inizio con 400 geni ChIP-chip, 80 di questi dovrebbero essere arricchiti nel solo RNA-Seq a causa delle possibilità 1: 5 di arricchimento in quel set di dati.

Qual è il modo corretto di calcolare il valore p, secondo la distribuzione ipergeometrica, per la sovrapposizione di B e C?

Risposte:


15

Vi sono vicino, con l'uso di dhypere phyper, ma non si capisce dove 0:2e -1:2sono provenienti da.

Il valore p che desideri è la probabilità di ottenere 100 o più palline bianche in un campione di dimensioni 400 da un'urna con 3000 palline bianche e 12000 palline nere. Ecco quattro modi per calcolarlo.

sum(dhyper(100:400, 3000, 12000, 400))
1 - sum(dhyper(0:99, 3000, 12000, 400))
phyper(99, 3000, 12000, 400, lower.tail=FALSE)
1-phyper(99, 3000, 12000, 400)

Questi danno 0,0078.

dhyper(x, m, n, k)dà la probabilità di disegnare esattamente x. Nella prima riga, riassumiamo le probabilità per 100 - 400; nella seconda riga prendiamo 1 meno la somma delle probabilità di 0 - 99.

phyper(x, m, n, k)dà la probabilità di ottenere xo meno, quindi phyper(x, m, n, k)è lo stesso di sum(dhyper(0:x, m, n, k)).

Il lower.tail=FALSEè un po 'di confusione. phyper(x, m, n, k, lower.tail=FALSE)è uguale a 1-phyper(x, m, n, k), e così è la probabilità di x+1o più. [Non me lo ricordo mai e quindi devo sempre ricontrollare.]

In quel sito stattrek.com , vuoi guardare l'ultima riga, "Probabilità cumulativa: P (X 100)", piuttosto che la prima riga "Probabilità ipergeometrica: P (X = 100)".

Qualsiasi numero particolare che disegni avrà una piccola probabilità (in effetti, max(dhyper(0:400, 3000, 12000, 400))dà 0.050), e ottenere 101 o 102 o qualsiasi numero più grande è ancora più interessante di 100, e il valore p è la probabilità, se il null le ipotesi erano vere, di ottenere un risultato tanto interessante o più di quanto osservato.

Ecco una foto della distribuzione ipergeometrica in questo caso. Puoi vedere che è centrato su 80 (20% di 400) e che 100 è abbastanza lontano nella coda destra. inserisci qui la descrizione dell'immagine


Grazie mille per il tuo aiuto. Capisco la logica dietro la tua risposta. Ma come faccio a spiegare a un gruppo di biologi che questo è maggiore della sovrapposizione osservata a causa del solo caso? Diranno che ho una possibilità 1: 5 di sovrapposizione. La mia sovrapposizione è significativa perché in una dimensione del campione di 400 palline (su 15.000 palline totali), la mia possibilità di ottenere una pallina bianca è in realtà inferiore a 1: 5 perché sto campionando una popolazione più piccola (non le intere 15.000)? Questo non ha senso perché anche se 400 <15.000, c'è ancora un rapporto 1: 5 di bianco: nero. ha senso?
stlandroidfan,

@stlandroidfan - Non capisco cosa trovi confuso. Ho aggiunto una figura; questo aiuta?
Karl,

0

Guardalo in questo modo .. Se lo hai assunto come un binomio, il che potrebbe non essere corretto, ma dovrebbe essere abbastanza approssimativo .. il tuo sigma ^ 2 è .8 * .2 * 400 = 64, quindi sigma = 8. Quindi da 80 a 100 hai superato 2,5 deviazioni standard .. Questo è piuttosto significativo .. Dovrebbe avere un piccolo valore p.


Grazie per la tua risposta. Le distribuzioni ipergeometriche tendono ad essere utilizzate più frequentemente per sovrapposizioni di elenchi genici da ciò che ho visto in letteratura. La domanda è: qual è la probabilità di ottenere 100 o più palline bianche in un campione di dimensioni 400 da un'urna con 3000 palline bianche e 12000 palline nere? Penso di essere ancora perplesso su come spiegarlo a un gruppo di biologi? Il modo in cui lo vedono è 3000: 12000 è una possibilità 1: 5 di bianco: nero. Quindi in un campionamento di 400, 80 dovrebbero essere bianchi. Quindi come mai la probabilità di ottenere 100 o più è molto inferiore al 20% (1 su 5)?
stlandroidfan,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.