Inquadratura della distribuzione binomiale negativa per il sequenziamento del DNA


16

La distribuzione binomiale negativa è diventata un modello popolare per i dati di conteggio (in particolare il numero previsto di letture di sequenziamento all'interno di una determinata regione del genoma da un determinato esperimento) in bioinformatica. Le spiegazioni variano:

  • Alcuni lo spiegano come qualcosa che funziona come la distribuzione di Poisson ma ha un parametro aggiuntivo, che consente una maggiore libertà di modellare la vera distribuzione, con una varianza non necessariamente uguale alla media
  • Alcuni lo spiegano come una miscela ponderata delle distribuzioni di Poisson (con una distribuzione di miscelazione gamma sul parametro Poisson)

C'è un modo per quadrare queste razionalità con la definizione tradizionale di una distribuzione binomiale negativa come modello del numero di successi delle prove di Bernoulli prima di vedere un certo numero di fallimenti? O dovrei semplicemente considerarlo come una felice coincidenza che una miscela ponderata di distribuzioni di Poisson con una distribuzione di miscelazione gamma abbia la stessa funzione di massa di probabilità del binomio negativo?


2
È anche una distribuzione composta di Poisson in cui si somma un numero distribuito di Poisson di variabili casuali logaritmiche.
Douglas Zare,

Risposte:


8

IMOH, penso davvero che la distribuzione binomiale negativa sia usata per comodità.

Quindi nell'RNA Seq si presume che se si prende un numero infinito di misurazioni dello stesso gene in un numero infinito di repliche, la vera distribuzione sarebbe lognormale. Questa distribuzione viene quindi campionata tramite un processo di Poisson (con un conteggio) in modo che la lettura vera e propria per gene attraverso i replicati sarebbe una distribuzione di Poisson-Lognormal.

Ma in pacchetti che usiamo come EdgeR e DESeq questa distribuzione è modellata come una distribuzione binomiale negativa. Questo non perché i ragazzi che l'hanno scritto non sapevano di una distribuzione di Poisson Lognormal.

È perché la distribuzione di Poisson Lognormal è una cosa terribile con cui lavorare perché richiede l'integrazione numerica per fare le cose, ecc. Quindi quando si tenta effettivamente di usarla a volte le prestazioni sono davvero pessime.

Una distribuzione binomiale negativa ha una forma chiusa, quindi è molto più facile lavorare con essa e la distribuzione gamma (la distribuzione sottostante) assomiglia molto a una distribuzione lognormale in quanto a volte sembra normale e talvolta ha una coda.

Ma in questo esempio (se si crede al presupposto) non può essere teoricamente corretto perché la distribuzione teoricamente corretta è il lognormale di Poisson e le due distribuzioni sono approssimazioni ragionevoli l'una dell'altra ma non equivalgono.

Ma continuo a pensare che la distribuzione binomiale negativa "errata" sia spesso la scelta migliore perché empiricamente darà risultati migliori perché l'integrazione funziona lentamente e gli adattamenti possono funzionare male, specialmente con distribuzioni con code lunghe.


7

Ho consultato alcune pagine Web e non sono riuscito a trovare una spiegazione, ma ne ho trovato uno per i valori interi di . Supponiamo di avere due fonti radioattive che generano in modo indipendente particelle alfa e beta alle velocità α erα , rispettivamente.β

Qual è la distribuzione del numero di particelle alfa prima della r particella beta ?

  1. Considera le particelle alfa come successi e le particelle beta come fallimenti. Quando viene rilevata una particella, la probabilità che sia una particella alfa è . Quindi, questa è la distribuzione binomiale negativaNB(r,αα+βNB(r,αα+β) .

  2. trrΓ(r,1/β).tr=λ/αtrPois(λ).r

Questo spiega perché queste distribuzioni sono uguali.


2

Posso solo offrire intuizione, ma la distribuzione gamma stessa descrive i tempi di attesa (continui) (quanto tempo impiega un evento raro). Quindi il fatto che una miscela distribuita gamma di distribuzioni di Poisson discrete comporterebbe un tempo di attesa discreto (prove fino a N fallimenti) non sembra troppo sorprendente. Spero che qualcuno abbia una risposta più formale.

Modifica: ho sempre giustificato la dist binomiale negativa. per il sequenziamento come segue: il passo del sequenziamento effettivo consiste semplicemente nel campionare le letture da una vasta libreria di molecole (poisson). Tuttavia, quella libreria viene creata dal campione originale mediante PCR. Ciò significa che le molecole originali sono amplificate in modo esponenziale. E la distribuzione gamma descrive la somma di k variabili casuali distribuite in modo esponenziale indipendente, cioè quante molecole nella libreria dopo aver amplificato k molecole campione per lo stesso numero di cicli PCR.

Da qui la PCR dei modelli binomiali negativi seguita dal sequenziamento.


Ciò ha senso, ma nel contesto della misurazione del numero di letture del sequenziamento in un genoma esiste una spiegazione intuitiva di ciò che rappresenta il periodo di attesa nella distribuzione binomiale negativa? In questo caso non vi è alcun periodo di attesa: sta solo misurando i conteggi delle letture di sequenziamento.
RobertF,

Vedi la mia modifica. Non vedo come pensarlo in termini di tempi di attesa si adatti all'impostazione del sequenziamento. La miscela di gamma poisson è più facile da interpretare. Ma alla fine sono la stessa cosa.
Felix Schlesinger,

2
Ok - allora forse la vera domanda è da quale coincidenza la modellazione di k successi + r fallimenti nelle prove di Bernoulli segue una miscela gamma Poisson? Forse una modellazione binomiale negativa k successi + r fallimenti può essere considerata un Poisson dbn sovradisperso a causa delle molte possibili permutazioni di successi e prove di insuccesso che si traducono in esattamente k successi osservati e r guasti osservati, che possono essere descritti come una raccolta di dbns separati?
RobertF,

2

Proverò a dare un'interpretazione meccanicistica semplicistica che ho trovato utile quando ci ho pensato.

μpμ1-ppNB(μ1-pp,p).

Calcolando i momenti di questa distribuzione, otteniamo il numero previsto di successi μ1-ppp1-p=μcome richiesto. Per varianza del numero di successi, otteniamoσ2=μ(1-p)-1 - la velocità con cui la preparazione della libreria fallisce per un frammento aumenta la varianza nella copertura osservata.

Mentre quanto sopra è una descrizione leggermente artificiale del processo di sequenziamento e si potrebbe fare un modello generativo adeguato dei passaggi della PCR ecc., Penso che fornisca una visione d'insieme dell'origine del parametro di sovradispersione (1-p)-1direttamente dalla distribuzione binomiale negativa. Preferisco il modello di Poisson con tariffa integrata come spiegazione in generale.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.