Generalizzazione continua della distribuzione binomiale negativa


24

La distribuzione binomiale negativa (NB) è definita su numeri interi non negativi e ha la funzione di massa di probabilitàHa senso considerare una distribuzione continua su reali non negativi definiti dalla stessa formula (sostituendo con x \ in \ mathbb R _ {\ ge 0} )? Il coefficiente binomiale può essere riscritto come prodotto di (k + 1) \ cdot \ ldots \ cdot (k + r-1) , che è ben definito per qualsiasi k reale . Quindi avremmo un PDF f (x; r, p) \ propto \ prod_ {i = 1} ^ {r-1} (x + i) \ cdot p ^ {x} (1-p) ^ {r} . Più in generale, possiamo sostituire il coefficiente binomiale con funzioni Gamma, consentendo valori non interi di r : kN0

f(k;r,p)=(k+r1k)pk(1p)r.
kN0xR0k f ( x ; r , p ) r - 1 i = 1 ( x + i ) p x ( 1 - p ) r . r(k+1)(k+r1)k
f(x;r,p)i=1r1(x+i)px(1p)r.
r
f(x;r,p)Γ(x+r)Γ(x+1)Γ(r)px(1p)r.

È una distribuzione valida? ha un nome? Ha qualche utilizzo? È forse un composto o una miscela? Esistono formule chiuse per la media e la varianza (e la costante di proporzionalità nel PDF)?

(Attualmente sto studiando un documento che utilizza il modello di miscela NB (con r = 2 fisso r=2) e lo inserisce tramite EM. Tuttavia, i dati sono numeri interi dopo una certa normalizzazione, cioè non numeri interi. Tuttavia, gli autori applicano la formula NB standard per calcolare la probabilità e ottenere risultati molto ragionevoli, quindi tutto sembra funzionare bene. L'ho trovato molto sconcertante. Nota che questa domanda non riguarda NB GLM.)


1
Non sarebbe una miscela di gamme con parametro di scala logp ? Se espandi il polinomio Πi=1r1(x+i) otterrai solo i=2raixi1 , quindi moltiplicando per px è lo stesso di exp{xlogp} , dove ai è il coefficiente di xi1 nel polinomio e logp<0 ovviamente, quindi sembra che si convertirà in un media ponderata delle distribuzioni gamma, ovvero una miscela.
jbowman,

... dovrebbe essere i=1 nella somma sopra, in realtà.
jbowman,

2
Poiché dipende solo dai parametri, è una costante che può essere assorbita nella proporzionalità. Inoltre, ha anche una costante che può essere ignorato. Scrivendo per , stai chiedendo una densità proporzionale aCiò identifica come fattore di scala e come parametro di forma. Per integrale è chiaramente una miscela di distribuzioni gamma. Tuttavia, non ha senso limitare agli interi.(1p)r(x+r1x)=Γ(x+r)/(Γ(r)Γ(x+1))1/Γ(r)pk=ekρρ=log(p)0
f(x;r,ρ)=Γ(x+r)Γ(x+1)eρx.
ρr rr
whuber

1
@whuber Giusto. Attualmente sto usando una distribuzione che è continua su valori positivi e ha una massa in punti pari a zero. Credo che questo sia l'approccio corretto. Ma mi è stato suggerito di utilizzare una generalizzazione continua di NB che avrebbe una probabilità diversa da zero a zero e quindi apparentemente consentirebbe di gestire zeri esatti. Da qui la mia domanda.
ameba dice che ripristini Monica il

2
Penso che ci possa essere un po 'di confusione in quel suggerimento: sembra confondere una probabilità (che è ciò che ha una massa punto o una distribuzione NB a zero) con una densità di probabilità (che è quale sia il valore di sarebbe). Una densità diversa da zero non ti consente di gestire gli zeri esatti, perché prevede ancora zero probabilità che sorga qualsiasi valore di ! f(0,θ)0
whuber

Risposte:


21

Questa è una domanda interessante. Il mio gruppo di ricerca utilizza la distribuzione a cui fai riferimento da alcuni anni nel nostro software di bioinformatica pubblicamente disponibile. Per quanto ne so, la distribuzione non ha un nome e non c'è letteratura su di esso. Mentre l'articolo di Chandra et al (2012) citato da Aksakal è strettamente correlato, la distribuzione che considerano sembra essere limitata ai valori interi per e non sembrano dare un'espressione esplicita per il pdf.r

Per darvi alcune informazioni, la distribuzione NB è molto utilizzata nella ricerca genomica per modellare i dati di espressione genica derivanti dall'RNA-seq e dalle tecnologie correlate. I dati di conteggio sorgono quando il numero di sequenze di DNA o RNA viene estratto da un campione biologico che può essere mappato su ciascun gene. In genere, ogni campione biologico contiene decine di milioni di letture associate a circa 25.000 geni. In alternativa si potrebbero avere campioni di DNA da cui le letture sono mappate su finestre genomiche. Noi e altri abbiamo reso popolare un approccio in base al quale i glms NB sono adattati alle letture della sequenza per ciascun gene e i metodi di Bayes empirici sono usati per moderare gli stimatori della dispersione genetica (dispersioneϕ=1/r). Questo approccio è stato citato in decine di migliaia di articoli di riviste nella letteratura genomica, quindi puoi avere un'idea di quanto viene utilizzato.

Il mio gruppo mantiene il pacchetto software edgeR R. Alcuni anni fa abbiamo rivisto l'intero pacchetto in modo che funzioni con conteggi frazionari, usando una versione continua di NB pmf. Abbiamo semplicemente convertito tutti i coefficienti binomiali nel NB pmf in rapporti di funzioni gamma e l'abbiamo usato come pdf continuo (misto). La motivazione per questo era che i conteggi delle letture in sequenza a volte possono essere frazionari a causa della (1) mappatura ambigua delle letture al trascrittoma o al genoma e / o (2) normalizzazione dei conteggi per correggere gli effetti tecnici. Quindi i conteggi sono talvolta conteggi attesi o stimati piuttosto che osservati. E ovviamente i conteggi letti possono essere esattamente zero con probabilità positiva. Il nostro approccio garantisce che i risultati di inferenza del nostro software siano continui nei conteggi, corrispondendo esattamente ai risultati NB discreti quando i conteggi stimati sono numeri interi.

Per quanto ne so, non esiste una forma chiusa per la costante di normalizzazione nel pdf, né esistono forme chiuse per la media o la varianza. Se si considera che non esiste una forma chiusa per l'integrale (la costante di Fransen-Robinson) è chiaro che non può esserci per l'integrale del continuo NB pdf neanche. Tuttavia, mi sembra che le formule tradizionali di media e varianza per l'NB dovrebbero continuare ad essere buone approssimazioni per l'NB continuo. Inoltre, la costante di normalizzazione dovrebbe variare lentamente con i parametri e quindi può essere ignorata come influenza trascurabile nei calcoli della massima verosimiglianza.

01Γ(x)dz

Si possono confermare queste ipotesi mediante l'integrazione numerica. La distribuzione NB nasce in bioinformatica come una miscela gamma di distribuzioni di Poisson (vedi l' articolo binomiale negativo di Wikipedia o McCarthy et al di seguito). La distribuzione NB continua sorge semplicemente sostituendo la distribuzione Poisson con il suo analogo continuo con pdf per dove è una costante normalizzante per garantire che la densità si integri a 1. Supponiamo ad esempio che . La distribuzione di Poisson ha pmf uguale al pdf sopra sugli interi non negativi e, con

f(x;λ)=a(λ)eλλxΓ(x+1)
x0a(λ)λ=10λ=10, la media e la varianza di Poisson sono uguali a 10. L'integrazione numerica mostra che e la media e la varianza della distribuzione continua sono uguali da 10 a circa 4 cifre significative. Quindi la costante di normalizzazione è praticamente 1 e la media e la varianza sono quasi esattamente le stesse della distribuzione discreta di Poisson. L'approssimazione è ulteriormente migliorata se aggiungiamo una correzione di continuità, integrando da a anziché da 0. Con la correzione di continuità, tutto è corretto (la costante di normalizzazione è 1 e i momenti concordano con Poisson discreto) a circa 6 figure.a(10)=1/0.9998751/2

Nel nostro pacchetto edgeR, non abbiamo bisogno di apportare alcuna modifica al fatto che ci sia massa a zero, perché lavoriamo sempre con verosimiglianze condizionali o con differenze di verosimiglianza ed eventuali funzioni delta annullate dai calcoli. Questo è tipico BTW per glms con distribuzioni di probabilità miste. In alternativa, potremmo considerare che la distribuzione non ha massa a zero ma che ha supporto a partire da -1/2 anziché a zero. Entrambe le prospettive teoriche portano alla pratica gli stessi calcoli.

Sebbene utilizziamo attivamente la distribuzione NB continua, non abbiamo pubblicato nulla su di essa esplicitamente. Gli articoli citati di seguito spiegano l'approccio NB ai dati genomici ma non discutono esplicitamente la distribuzione continua NB.

In sintesi, non mi sorprende che l'articolo che stai studiando abbia ottenuto risultati ragionevoli da una versione continua del NB pdf, perché anche questa è la nostra esperienza. Il requisito chiave è che dovremmo modellare correttamente i mezzi e le varianze e ciò andrà bene, a condizione che i dati, siano essi interi o no, mostrino la stessa forma di relazione quadratica di varianza media che la distribuzione NB fa.

Riferimenti

Robinson, M. e Smyth, GK (2008). Piccola stima del campione di dispersione binomiale negativa, con applicazioni ai dati SAGE . Biostatistica 9, 321-332.

Robinson, MD e Smyth, GK (2007). Test statistici moderati per valutare le differenze nell'abbondanza di tag . Bioinformatica 23, 2881-2887.

McCarthy, DJ, Chen, Y, Smyth, GK (2012). Analisi dell'espressione differenziale di esperimenti RNA-Seq multifattoriali rispetto alla variazione biologica . Ricerca sugli acidi nucleici 40, 4288-4297.

Chen, Y, Lun, ATL e Smyth, GK (2014). Analisi dell'espressione differenziale di esperimenti complessi di RNA-seq usando edgeR. In: Analisi statistica dei dati della sequenza di prossima generazione, Somnath Datta e Daniel S Nettleton (a cura di), Springer, New York, pagine 51--74. preprint

Lun, ATL, Chen, Y e Smyth, GK (2016). È DE-licious: una ricetta per analisi dell'espressione differenziale di esperimenti di RNA-seq usando metodi di quasi-verosimiglianza in edgeR. Metodi di biologia molecolare 1418, 391-416. preprint

Chen Y, Lun ATL e Smyth, GK (2016). Dalle letture ai geni ai percorsi: analisi dell'espressione differenziale degli esperimenti RNA-Seq usando Rsubread e la pipeline di quasi-verosimiglianza edgeR . F1000Ricerca 5, 1438.


Questo è estremamente utile, @Gordon; grazie mille per aver dedicato del tempo a scriverlo. Sto lavorando anche con i dati RNA-seq, quindi una risposta da questa prospettiva è particolarmente preziosa (ora ho aggiunto il tag [bioinformatica] alla domanda). Il tuo lavoro riguarda l'espressione differenziale, mentre il mio lavoro attuale riguarda il raggruppamento (il documento che stavo leggendo è Harris et al. Sugli interneuroni CA1; biorxiv ). Comunque, lascia che ti faccia un paio di piccole domande / chiarimenti. [cont.]
Ameba dice Reinstate Monica il

(1) Hai detto che NB continuo è una miscela gamma di Poisson continui. Potresti espanderlo un po ', forse mostrarlo un po' più esplicitamente? Penso che questo sarà utile per il pubblico in generale. A questo proposito, nei commenti sotto la mia domanda due persone hanno scritto che NB continuo dovrebbe essere una miscela di Gamma con parametro di scala , ma solo per intero . Entrambe le visualizzazioni sono vere? (2) Hai detto che la funzione delta su zero non ha importanza per i GLM. Allo stesso tempo, esiste una vasta letteratura sui GLM con distribuzioni a zero inflazione. Come si adatta insieme? log(p)r
ameba dice Ripristina Monica il

(3) Nel tuo lavoro pratico, usi ML per stimare tutti i parametri, incluso , o fissi anticipatamente ad un valore specifico (forse lo stesso valore condiviso per tutti i geni?) E poi lo mantieni costante? Immagino che questo dovrebbe essere molto più semplice. (Ad esempio NB stesso è una famiglia di dispersione esponenziale ma solo con fissa ).rrr
ameba dice Reinstate Monica il

1
@amoeba Grazie per il biorxiv ref. (1) La derivazione di NB come miscela di Poissons è abbastanza nota ed è presente nei nostri documenti, ad esempio McCarthy et al. La derivazione del NB continuo segue semplicemente sostituendo Poisson continuo a Poisson. Devo aggiungere questo alla mia risposta? Lo farebbe a lungo. Non vedo come il NB continuo possa essere utilmente rappresentato come una miscela di gamme. (2) No, l'inflazione zero è un'altra complicazione aggiuntiva. Evitiamo questa complicazione nel nostro lavoro.
Gordon Smyth,

1
@amoeba (3) Stimiamo tutti i parametri. È fondamentale stimare le dispersioni genetiche per ottenere il controllo del tasso di errore, e questo deve essere fatto con particolare attenzione perché le dimensioni del campione sono spesso minuscole e la dimensione dei dati è enorme. Usiamo una procedura complessa che coinvolge una probabilità di profilo adattata (si pensi a REML) all'interno di ciascun gene collegato a una procedura empirica di Bayes tra i geni. I glms NB geneticamente sono quindi montati da ML con le dispersioni fisse. Infine, i coefficienti vengono testati usando i test F di quasi verosimiglianza.
Gordon Smyth,

19

Guarda questo documento: Chandra, Nimai Kumar e Dilip Roy. Una versione continua della distribuzione binomiale negativa. Statistica 72, n. 1 (2012): 81 .

È definito nel documento come la funzione di sopravvivenza, che è un approccio naturale da quando il binomio neg è stato introdotto nell'analisi dell'affidabilità:

q=e-λ,λ0,p+q=1rN,r>0

Sr(x)={qxfor r=1k=0r1(x+k1k)pkqxfor r=2,3,
dove e .q=eλ,λ0,p+q=1rN,r>0

Grazie! Daremo un'occhiata a questo documento. (Non sono stato io a effettuare il downgrade.)
ameba dice Reinstate Monica il

@amoeba, non mi preoccupo del downvoting, è internet :)
Aksakal

3
(È strano che questa risposta sia stata
sottoposta a downgrade

È bello avere questo riferimento, ma idealmente vorrei vedere una discussione più dettagliata qui. Questa funzione di sopravvivenza sta definendo la stessa distribuzione del PDF nella mia domanda? (A proposito, trovo un po 'strano che gli autori usino coefficienti binomiali per valori non interi di .) Diversi commenti sopra sottolineano che questa è una miscela di distribuzioni gamma (non vedo alcuna discussione di questo in la carta); quali sono i parametri di queste gamme, quali sono i pesi della miscela? Le formule NB per la media e la varianza valgono per la versione continua? x
ameba dice Ripristina Monica il

@amoeba, il giornale ha dei momenti, non sono gli stessi di NB, purtroppo
Aksakal
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.