Uso e interpretazione corretti dei modelli gamma a gonfiamento zero


11

Antefatto: attualmente sono un biostatista alle prese con un set di dati di tassi di espressione cellulare. Lo studio ha esposto una serie di cellule, raccolte in gruppi da vari donatori, a determinati peptidi. Le cellule esprimono determinati biomarcatori in risposta, oppure no. I tassi di risposta vengono quindi registrati per ciascun gruppo di donatori. I tassi di risposta (espressi in percentuale) sono il risultato di interesse e l'esposizione del peptide è il predittore.

Si noti che le osservazioni sono raggruppate all'interno dei donatori.

Dal momento che ho solo i dati di riepilogo, sto trattando i tassi di risposta dei donatori come dati continui (almeno per ora).

La complicazione deriva dal fatto che ho molti zero nei miei dati. Troppi per essere ignorati. Sto prendendo in considerazione un modello gamma a inflazione zero per far fronte al fatto che ho distorto i dati continui associati a una sovrabbondanza di zero. Ho anche considerato il modello di Tobia, ma questo sembra inferiore dal momento che assume la censura a un limite inferiore, al contrario dei veri zero (gli econometrici potrebbero dire che la distinzione è discutibile).

Domanda: in generale, quando è appropriato usare un modello gamma a gonfia zero? Cioè, quali sono i presupposti? E come si interpretano le sue inferenze? Sarei grato per i collegamenti ai documenti che ne discutono, se ne hai.

Ho trovato un collegamento su SAS-L in cui Dale McLerran fornisce il codice NLMIXED per un modello gamma a gonfiaggio zero, quindi sembra possibile. Tuttavia, odierei accusarmi alla cieca.

Risposte:


5

Innanzitutto, non vengono visualizzati zeri autentici nei dati delle espressioni. Il tuo biologo lo sta dicendo, come fanno tutti i biologi, ma quando un biologo dice "è zero" significa in realtà "è al di sotto della mia soglia di rilevazione, quindi non esiste". È un problema linguistico a causa della mancanza di raffinatezza matematica nel campo. Parlo per esperienza personale qui.

La spiegazione della gamma gonfiata zero nel collegamento fornito è eccellente. Il processo fisico che porta ai tuoi dati è, se ho capito, un donatore viene selezionato, quindi trattato con un certo peptide e la risposta viene misurata dalle cellule di quel donatore. Ci sono un paio di livelli qui. Uno è la forza complessiva della risposta del donatore, che si nutre nel livello di espressione di ciascuna cellula particolare da misurare. Se interpreti la tua variabile di Bernoulli nella Gamma gonfiata a zero come "la risposta del donatore è abbastanza forte da misurare", allora potrebbe andare bene. Basta notare che in quel caso si sta accumulando il rumore dell'espressione della singola cellula con la variazione tra donatori che rispondono fortemente. Poiché il rumore in espressione in una singola cella è approssimativamente distribuito gamma,

Se la variazione aggiuntiva tra donatori e cellule non rovina il tuo adattamento gamma e stai solo cercando di ottenere espressione vs peptide applicato, allora non c'è motivo per cui questo non dovrebbe andare bene.

Se è necessaria un'analisi più dettagliata, consiglierei di costruire un modello gerarchico personalizzato per abbinare il processo che porta alle tue misurazioni.


3

Ho trovato una soluzione che trovo piuttosto elegante. C'è un eccellente articolo in letteratura intitolato "Analisi di dati di misure ripetute con aggregazione a zero" che dimostra un modello lognormale a gonfiamento zero per dati correlati. Gli autori forniscono una macro SAS che si basa su PROC NLMIXED ed è abbastanza facile da implementare. La buona notizia è che questo può semplificare i casi senza osservazioni raggruppate per omissione della repeateddichiarazione nella macro. La cattiva notizia è che NLMIXED non ha ancora le molte strutture di correlazione di cui spesso abbiamo bisogno, come autoregressive.

La macro si chiama MIXCORR e ha una pagina Wiki molto utile che puoi trovare qui . La macro stessa può essere scaricata qui .

Consiglio vivamente tutti questi collegamenti. Spero che li trovi utili.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.