Confronto longitudinale di due distribuzioni


10

Ho i risultati del test di un esame del sangue somministrato a 2500 persone quattro volte a intervalli di sei mesi. I risultati consistono principalmente in due misure di risposta immunitaria: una in presenza di alcuni antigeni della tubercolosi, una in assenza. Attualmente, ciascun test viene valutato positivo o negativo in base alla differenza tra la risposta dell'antigene e la risposta nulla (con l'idea che se il sistema immunitario risponde agli antigeni della tubercolosi, è probabile che tu sia stato esposto al batterio stesso ad un certo punto ). In sostanza, il test suppone che le distribuzioni di un individuo non esposto delle risposte zero e TB debbano essere sostanzialmente identiche, mentre una persona con esposizione alla TB avrà risposte TB provenienti da una distribuzione diversa (di valori più alti). Avvertimento: le risposte sono molto, molto non normali, e i valori si aggregano sia sul pavimento naturale che sul soffitto troncato dallo strumento.

Tuttavia, sembra abbastanza chiaro in questa impostazione longitudinale che stiamo ottenendo "falsi positivi" (nessun vero gold standard per la tubercolosi latente, temo) che sono causati da (tipicamente piccole) fluttuazioni dell'antigene e risposte nulle. Sebbene ciò possa essere difficile da evitare in alcune situazioni (potresti avere solo una possibilità di testare qualcuno), ci sono molte situazioni in cui le persone vengono regolarmente testate per la tubercolosi ogni anno o giù di lì - negli Stati Uniti, questo è comune per gli operatori sanitari, i militari, i senzatetto che soggiornano nei rifugi e così via. Sembra un peccato ignorare i risultati dei test precedenti perché i criteri esistenti risultano trasversali.

Io penso che quello che mi piacerebbe fare è quello che crudamente concepire come l'analisi miscela longitudinale. Proprio come i criteri trasversali, vorrei essere in grado di stimare la probabilità che le risposte TB e nulle di un individuo siano tratte dalla stessa distribuzione, ma che tale stima includa i risultati dei test precedenti, nonché le informazioni dal campione come un insieme (ad esempio, posso usare la distribuzione a livello di campione delle variabilità all'interno dell'individuo per migliorare le mie stime della distribuzione specifica di zero o TB di un individuo?). La probabilità stimata dovrebbe essere in grado di cambiare nel tempo, ovviamente, per tenere conto della possibilità di una nuova infezione.

Mi sono totalmente stravolto nel tentativo di pensarci in modi insoliti, ma mi sembra che questa concettualizzazione sia buona come quella che mi verrà in mente. Se qualcosa non ha senso, non esitare a chiedere chiarimenti. Se la mia comprensione della situazione sembra sbagliata, non esitate a dirmelo. Grazie mille per il vostro aiuto.

In risposta a Srikant: è un caso di classificazione latente (infetto da TB o meno) utilizzando i due risultati del test continuo (ma non normale e troncato). In questo momento, quella classificazione viene fatta usando un cutoff (nella sua forma semplificata, TB - zero> .35 -> positivo). Con i risultati del test presentati come (zero, TB, risultato), gli archetipi di base * sono:

Probabile negativo: (0,06, 0,15, -) (0,24, 0,23, -) (0,09, 0,11, -) (0,16, 0,15, -)
Probabile positivo: (0,05, 3,75, +) (0,05, 1,56, +) (0,06 , 5,02, +) (0,08, 4,43, +)
Wobbler: (0,05, 0,29, -) (0,09, 0,68, +) (0,08, 0,31, -) (0,07, 0,28, -)

Il lato positivo del secondo test per Wobbler è chiaramente un'aberrazione, ma come lo modelleresti? Mentre una linea del mio pensiero è quella di stimare la "vera differenza" tra TB e zero in ogni momento usando un modello multilivello a misure ripetute, mi è venuto in mente che quello che voglio veramente sapere è se la risposta nulla della persona e la risposta TB vengono estratti dalla stessa distribuzione o se il loro sistema immunitario riconosce gli antigeni della tubercolosi e si attiva, producendo una risposta aumentata.

Quanto a ciò che potrebbe causare un test positivo diverso dall'infezione: non ne sono sicuro. Sospetto che in genere si tratti solo di una variazione interpersonale dei risultati, ma c'è sicuramente la possibilità di altri fattori. Abbiamo dei questionari per ogni momento, ma non li ho ancora esaminati troppo.

* Dati fabbricati ma illustrativi


Oh, e sentiti libero di ripetere l'operazione: il mio browser non funziona con il suggerimento automatico, quindi faccio fatica a vedere cosa c'è là fuori.
Matt Parker,

La tua variabile dipendente è continua o discreta? O, forse, il risultato del test sottostante è continuo e viene convertito in una risposta discreta (cioè "positivo", "negativo") a seconda di un limite? Potresti anche chiarire perché un individuo dovrebbe passare da negativo a positivo senza essere esposto alla tubercolosi? Un esempio specifico (con alcuni numeri lanciati) di un tale capovolgimento può essere d'aiuto.

1
Gli esempi sono davvero utili per visualizzare i dati. Un'altra domanda riguardante il tuo avvertimento: "i valori si aggregano sul pavimento e sul soffitto e che i dati non sono normali". Potete dirmi se (a) i dati sull'estremità inferiore della scala sembrano normali e (b) i dati sull'estremità superiore della scala sembrano normali?

Nota: a quanto pare ho perso la scadenza per assegnare effettivamente la taglia, quindi ne sto creando un altro in modo da poter ricompensare correttamente Srikant per il suo aiuto. Altre risposte sono sempre benvenute, ma la generosità è per lui.
Matt Parker,

Risposte:


2

Questa non è una risposta completa, ma spero che ti dia alcune idee su come modellare la situazione in modo coerente.

ipotesi

  1. I valori all'estremità inferiore della scala seguono una distribuzione normale troncata dal basso.

  2. I valori all'estremità superiore della scala seguono una distribuzione normale troncata dall'alto.

    (Nota: so che hai detto che i dati non sono normali, ma presumo che ti riferisca alla distribuzione di tutti i valori mentre i presupposti di cui sopra si riferiscono ai valori nella parte inferiore e superiore della scala.)

  3. Lo stato di base di una persona (che abbia o meno la tubercolosi) segue una catena markov del primo ordine.

Modello

Permettere:

  1. Di(t) essere 1 se al momento la persona ha TB e 0 altrimenti,tith

  2. RTBi(t) è la risposta del test al test TB al momento della persona ,tith

  3. RNi(t) è la risposta del test al test NILL al momento della persona ,tith

  4. f(RNi(t)|Di(t)=0)N(μl,σl2)I(RNi(t)>Rl)

  5. f(RNi(t)|Di(t)=1)N(μl,σl2)I(RNi(t)>Rl)

    I punti 4 e 5 catturano l'idea che la risposta di una persona al test NILL non dipende dallo stato della malattia.

  6. f(RTBi(t)|Di(t)=0)N(μl,σl2)I(RTBi(t)>Rl)

  7. f(RTBi(t)|Di(t)=1)N(μu,σu2)I(RTBi(t)<Ru)

  8. μu>μl

    I punti 6, 7 e 8 catturano l'idea che la risposta di una persona al test della tubercolosi dipende dallo stato della malattia.

  9. p(t) è la probabilità che una persona prenda la tubercolosi durante i 6 mesi precedenti dato che erano liberi da malattia durante il precedente periodo di test. Pertanto, la matrice di transizione di stato vorrebbe quella seguente:t

    [1p(t)p(t)01]

    In altre parole,

    Prob(Di(t)=1|Di(t1)=0)=p(t)

    Prob(Di(t)=0|Di(t1)=0)=1p(t)

    Prob(Di(t)=1|Di(t1)=1)=1

    Prob(Di(t)=0|Di(t1)=1)=0

I tuoi criteri di prova indicano che:

D^i(t)={1,RTBi(t)RNi(t)0.350,otherwise

Tuttavia, come si vede dalla struttura del modello, è possibile parametrizzare effettivamente i cut-off e modificare l'intero problema in quello di quelli che dovrebbero essere i cut-off per diagnosticare con precisione i pazienti. Pertanto, il problema traballante sembra essere più un problema con la scelta dei tagli piuttosto che qualsiasi altra cosa.

Al fine di scegliere le interruzioni "giuste", è possibile prendere i dati storici sui pazienti definitivamente identificati come affetti da TB e stimare i parametri risultanti della configurazione di cui sopra. È possibile utilizzare alcuni criteri come il numero di pazienti correttamente classificati come affetti da TB o meno come metrica per identificare il modello "migliore". Per semplicità, potresti supporre che sia un parametro invariante nel tempo che sembra ragionevole in assenza di epidemie ecc.p(t)

Spero sia utile.


Grazie Srikant! Scusa, in qualche modo ho perso il tuo commento prima. Il cluster superiore è in realtà solo un picco proprio al soffitto - non c'è variabilità lì tranne per il lungo tratto di uniformità che lo collega alla distribuzione inferiore, che è fondamentalmente come descrivi. Mi ci vorrà del tempo per analizzare la tua risposta (soprattutto perché sono bloccato in IE e non riesco a vedere correttamente LaTeX in questo momento), ma apprezzo molto la tua dedizione a questa strana piccola domanda.
Matt Parker,

3

Tricky Matt, come molti problemi con le statistiche del mondo reale sono!

Vorrei iniziare a definire i tuoi obiettivi / obiettivi di studio.

Senza conoscere il vero stato dei soggetti, sarà difficile definire le distribuzioni di probabilità per il test TB + e TB-. Hai dei questionari sulla precedente infezione da TB (o meglio, storie mediche). Inoltre, continuo a testare la tubercolosi + a causa di un'immunizzazione nell'infanzia - diversi decenni fa - quindi è necessario prendere in considerazione le immunizzazioni precedenti.

Mi sembra che la tua domanda intrinseca sia: i test ripetuti della TB influenzano il risultato del test?

Vale la pena ottenere una copia dell'analisi dei dati longitudinali di Peter Diggle .

Effettuare alcune analisi dei dati esplorativi, in particolare matrici di grafici a dispersione dei risultati del test zero ogni volta l'uno rispetto all'altro e i risultati del test TB ogni volta l'uno rispetto all'altro; e i grafici a dispersione TB vs zero (in ogni momento). Prendi anche le differenze (test TB - Test zero) ed esegui le matrici del diagramma a dispersione. Prova le trasformazioni dei dati e ripeti questi - immagino log (TB) - log (Nil) può aiutare se i risultati TB sono molto grandi rispetto a zero. Cerca relazioni lineari nella struttura delle correlazioni.

Un altro approccio sarebbe quello di prendere il risultato del test definito (positivo / negativo) e modellarlo logitudinalmente usando un modello di effetti misti non lineari (logit link). Alcuni individui passano dal test TB + a TB- ed è correlato al loro test Nil, test TB, TB - Nil o qualche trasformazione dei risultati del test?


Grazie per la tua risposta. Per quanto riguarda non conoscere il vero stato: abbiamo ampi questionari e siamo ben consapevoli del problema del vaccino BCG con il test cutaneo - in effetti, questi esami del sangue dovrebbero risolvere quel problema perché usano un set diverso di antigeni rispetto al PPD sei abituato. Questa è quasi una domanda separata, tuttavia, e su cui lavoreremo un po 'più tardi - in questo momento, il mio interesse è quello di rendere questo test "longitduinalmente consapevole".
Matt Parker,

... specialmente perché alcuni individui passano da negativi a positivi, e questo è spesso un prodotto dei loro tipici risultati pari a zero e TB che producono piccole fluttuazioni: un po 'giù, un po' TB un po ', e improvvisamente sono positivi. Il prossimo test, sono tornati ad essere negativi. Posso vederlo mentre rivedo i singoli risultati, ma non sono sicuro di come incorporare in modo appropriato la mia intuizione in un modello.
Matt Parker,

Infine, mentre ho provato a prendere i risultati del registro, questo non sembra essere sufficiente per avvicinarli alla normalità. Sono molto, molto inclinati e il troncamento nella parte alta complica ulteriormente questo aggiungendo una notevole chiazza di densità al soffitto. È interessante notare, tuttavia, che le distribuzioni dei risultati zero e TB a livello di campione sono abbastanza simili, con l'unica differenza che quella chiazza sul soffitto è molto più grande per i risultati TB.
Matt Parker,

Grazie per aver dedicato del tempo a leggere e rispondere a questa bestia di una domanda!
Matt Parker,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.