Questa è una domanda interessante. Il mio gruppo di ricerca utilizza la distribuzione a cui fai riferimento da alcuni anni nel nostro software di bioinformatica pubblicamente disponibile. Per quanto ne so, la distribuzione non ha un nome e non c'è letteratura su di esso. Mentre l'articolo di Chandra et al (2012) citato da Aksakal è strettamente correlato, la distribuzione che considerano sembra essere limitata ai valori interi per e non sembrano dare un'espressione esplicita per il pdf.r
Per darvi alcune informazioni, la distribuzione NB è molto utilizzata nella ricerca genomica per modellare i dati di espressione genica derivanti dall'RNA-seq e dalle tecnologie correlate. I dati di conteggio sorgono quando il numero di sequenze di DNA o RNA viene estratto da un campione biologico che può essere mappato su ciascun gene. In genere, ogni campione biologico contiene decine di milioni di letture associate a circa 25.000 geni. In alternativa si potrebbero avere campioni di DNA da cui le letture sono mappate su finestre genomiche. Noi e altri abbiamo reso popolare un approccio in base al quale i glms NB sono adattati alle letture della sequenza per ciascun gene e i metodi di Bayes empirici sono usati per moderare gli stimatori della dispersione genetica (dispersioneϕ=1/r). Questo approccio è stato citato in decine di migliaia di articoli di riviste nella letteratura genomica, quindi puoi avere un'idea di quanto viene utilizzato.
Il mio gruppo mantiene il pacchetto software edgeR R. Alcuni anni fa abbiamo rivisto l'intero pacchetto in modo che funzioni con conteggi frazionari, usando una versione continua di NB pmf. Abbiamo semplicemente convertito tutti i coefficienti binomiali nel NB pmf in rapporti di funzioni gamma e l'abbiamo usato come pdf continuo (misto). La motivazione per questo era che i conteggi delle letture in sequenza a volte possono essere frazionari a causa della (1) mappatura ambigua delle letture al trascrittoma o al genoma e / o (2) normalizzazione dei conteggi per correggere gli effetti tecnici. Quindi i conteggi sono talvolta conteggi attesi o stimati piuttosto che osservati. E ovviamente i conteggi letti possono essere esattamente zero con probabilità positiva. Il nostro approccio garantisce che i risultati di inferenza del nostro software siano continui nei conteggi, corrispondendo esattamente ai risultati NB discreti quando i conteggi stimati sono numeri interi.
Per quanto ne so, non esiste una forma chiusa per la costante di normalizzazione nel pdf, né esistono forme chiuse per la media o la varianza. Se si considera che non esiste una forma chiusa per l'integrale
(la costante di Fransen-Robinson) è chiaro che non può esserci per l'integrale del continuo NB pdf neanche. Tuttavia, mi sembra che le formule tradizionali di media e varianza per l'NB dovrebbero continuare ad essere buone approssimazioni per l'NB continuo. Inoltre, la costante di normalizzazione dovrebbe variare lentamente con i parametri e quindi può essere ignorata come influenza trascurabile nei calcoli della massima verosimiglianza.
∫∞01Γ(x)dz
Si possono confermare queste ipotesi mediante l'integrazione numerica. La distribuzione NB nasce in bioinformatica come una miscela gamma di distribuzioni di Poisson (vedi l' articolo binomiale negativo di Wikipedia o McCarthy et al di seguito). La distribuzione NB continua sorge semplicemente sostituendo la distribuzione Poisson con il suo analogo continuo con pdf
per dove è una costante normalizzante per garantire che la densità si integri a 1. Supponiamo ad esempio che . La distribuzione di Poisson ha pmf uguale al pdf sopra sugli interi non negativi e, con
f(x;λ)=a(λ)e−λλxΓ(x+1)
x≥0a(λ)λ=10λ=10, la media e la varianza di Poisson sono uguali a 10. L'integrazione numerica mostra che e la media e la varianza della distribuzione continua sono uguali da 10 a circa 4 cifre significative. Quindi la costante di normalizzazione è praticamente 1 e la media e la varianza sono quasi esattamente le stesse della distribuzione discreta di Poisson. L'approssimazione è ulteriormente migliorata se aggiungiamo una correzione di continuità, integrando da a anziché da 0. Con la correzione di continuità, tutto è corretto (la costante di normalizzazione è 1 e i momenti concordano con Poisson discreto) a circa 6 figure.
a(10)=1/0.999875−1/2∞
Nel nostro pacchetto edgeR, non abbiamo bisogno di apportare alcuna modifica al fatto che ci sia massa a zero, perché lavoriamo sempre con verosimiglianze condizionali o con differenze di verosimiglianza ed eventuali funzioni delta annullate dai calcoli. Questo è tipico BTW per glms con distribuzioni di probabilità miste. In alternativa, potremmo considerare che la distribuzione non ha massa a zero ma che ha supporto a partire da -1/2 anziché a zero. Entrambe le prospettive teoriche portano alla pratica gli stessi calcoli.
Sebbene utilizziamo attivamente la distribuzione NB continua, non abbiamo pubblicato nulla su di essa esplicitamente. Gli articoli citati di seguito spiegano l'approccio NB ai dati genomici ma non discutono esplicitamente la distribuzione continua NB.
In sintesi, non mi sorprende che l'articolo che stai studiando abbia ottenuto risultati ragionevoli da una versione continua del NB pdf, perché anche questa è la nostra esperienza. Il requisito chiave è che dovremmo modellare correttamente i mezzi e le varianze e ciò andrà bene, a condizione che i dati, siano essi interi o no, mostrino la stessa forma di relazione quadratica di varianza media che la distribuzione NB fa.
Riferimenti
Robinson, M. e Smyth, GK (2008). Piccola stima del campione di dispersione binomiale negativa, con applicazioni ai dati SAGE . Biostatistica 9, 321-332.
Robinson, MD e Smyth, GK (2007). Test statistici moderati per valutare le differenze nell'abbondanza di tag . Bioinformatica 23, 2881-2887.
McCarthy, DJ, Chen, Y, Smyth, GK (2012). Analisi dell'espressione differenziale di esperimenti RNA-Seq multifattoriali rispetto alla variazione biologica . Ricerca sugli acidi nucleici 40, 4288-4297.
Chen, Y, Lun, ATL e Smyth, GK (2014). Analisi dell'espressione differenziale di esperimenti complessi di RNA-seq usando edgeR. In: Analisi statistica dei dati della sequenza di prossima generazione, Somnath Datta e Daniel S Nettleton (a cura di), Springer, New York, pagine 51--74. preprint
Lun, ATL, Chen, Y e Smyth, GK (2016). È DE-licious: una ricetta per analisi dell'espressione differenziale di esperimenti di RNA-seq usando metodi di quasi-verosimiglianza in edgeR. Metodi di biologia molecolare 1418, 391-416. preprint
Chen Y, Lun ATL e Smyth, GK (2016). Dalle letture ai geni ai percorsi: analisi dell'espressione differenziale degli esperimenti RNA-Seq usando Rsubread e la pipeline di quasi-verosimiglianza edgeR . F1000Ricerca 5, 1438.