Calcola la probabilità di comparsa della malattia


8

Sono un medico, quindi per favore sii gentile con me e la mia conoscenza di base delle statistiche.

Ho un set di dati composto da pazienti e loro visite e ho etichettato la presenza di un tipo specifico di talpa nella loro mano sinistra e / o destra con {0,1} valori (0 = non presente e 1 = presente). Il set di dati è simile al seguente:

** L'ho rimosso poiché vengono fornite le risposte; Posso inviarlo su una nuova richiesta

Ciò significa che il paziente A1-001 ha avuto 6 visite senza presenza di talpa nella mano destra durante tutte le visite e presente della talpa nella mano sinistra in tutte le visite tranne la prima.

Sono interessato a trovare la probabilità che una mano sviluppi una talpa solo tra i pazienti che hanno sviluppato una talpa in una mano e trovo la probabilità di sviluppare una talpa nell'altra mano (dato che il paziente aveva già una talpa nell'altra mano) .

Inoltre, voglio sapere qual è la probabilità di sviluppare una talpa nelle visite tra i pazienti che hanno sviluppato una talpa ad un certo punto con entrambe le mani

Potresti aiutarmi a modellare queste semplici domande?


"Inoltre, voglio sapere qual è la probabilità di sviluppare una talpa nella stessa visita tra i pazienti che hanno sviluppato una talpa ad un certo punto con entrambe le mani." - Ma stai codificando talpe per mano come presenti o assenti anziché contare il numero di talpe, quindi se un paziente ha già una talpa su ogni mano, come sarebbe visibile una talpa aggiuntiva nei dati?
Kodiologo,

@Kodiologist Sì, sono interessato solo alla presenza e non al numero di talpe. Se un paziente ha già una talpa su ogni mano, non è possibile averne una in più: è possibile rimanere solo con questa talpa o la talpa scompare.
laza,

2
Fornire il set di dati completo può chiarire la domanda e aiutare a ricevere una risposta.
Todd D,

@Todd Non capisco come fornire l'intero set di dati cambierà la soluzione al problema. Non sono un matematico ma credo che il problema sia ben definito anche con questa dimensione del campione. Immagino che risolvere il problema per N = 3 (numero di pazienti) sarà lo stesso che risolvere il problema per N = 100.
laza

1
@laza, la matematica non è difficile per i matematici. Ma tu poni un problema che non riguarda la matematica e invece di cercare di capire cosa intendi (ecco perché è stato chiesto un set di dati più ampio) ...... cosa intendi con "Voglio sapere qual è il probabilità di sviluppare una talpa nella stessa visita tra i pazienti che hanno sviluppato una talpa ad un certo punto con entrambe le mani. " ? Non hai risposto a questa domanda di Kodiologist,
Sextus Empiricus,

Risposte:


5

Personalmente ritengo che questo si presti bene ad un'analisi di sopravvivenza.

Hai persone senza talpe in una certa mano all'inizio del periodo (la tua popolazione a rischio); puoi selezionarli e hai punti temporali per il follow-up e se sono stati censurati o meno (sviluppato una talpa). Questo ti mette in pericolo per qualunque coorte tu abbia selezionato.

È quindi possibile calcolare un rapporto di rischio (ad es. Per lo sviluppo di una talpa destra nelle persone con una talpa sinistra al basale, rispetto a quelle senza). Questo potrebbe essere espresso su un grafico di Kaplan-Meier e verrà fornito con un intervallo di confidenza.


Ciao @James, penso che darò una possibilità a questo lifelines.readthedocs.io/en/latest/… Che ne pensi?
laza,

Sono sicuro che va bene. Anche se adoro il pitone preferisco generalmente R per le statistiche, ma questo sembra ragionevolmente ben supportato.
James,

mi puoi dare un suggerimento o due wrt portando i dati nel formato corretto?
laza,

Come si dice, devi sapere il tempo in cui le persone sono state osservate e quando sono "morte" (cioè hanno preso una talpa) o l'ultima volta che sono state viste se non hanno avuto una talpa. Quindi, per ogni paziente, traccia il tempo da dove li hai visti per la prima volta senza una talpa, fino al momento in cui hanno preso la talpa o sono stati visti l'ultima volta. Questa è la colonna "T" nel link di esempio. La colonna "E" indica se hanno una talpa oppure no. È quindi necessaria 1 riga per paziente.
James,

Ma cosa succede se il paziente aveva una talpa immediatamente alla prima visita? E in un'altra domanda, perché pensi che le catene Markov non siano adatte a questo problema? È un problema di transizione e, da quello che ho letto, sembrano molto adatti ad affrontare questo tipo di problemi.
laza,

0

Non è necessario eseguire la modellazione qui, tutte le tue domande sono semplici probabilità condizionate.

Bene, dal momento che la gente non ha apprezzato questa risposta, è necessario chiarire un paio di cose.

Sono interessato a trovare la probabilità che una mano sviluppi una talpa solo tra i pazienti che hanno sviluppato una talpa in una mano e trovo la probabilità di sviluppare una talpa nell'altra mano (dato che il paziente aveva già una talpa nell'altra mano) .

Intendi per visita? O che non hanno mai sviluppato una talpa? Dal tuo esempio:

I pazienti 1 e 3 hanno sviluppato una talpa da un lato. D'altra parte il paziente 1 non ha mai sviluppato una talpa, ma il paziente 3 lo ha fatto, quindi si potrebbe sostenere che la risposta alla tua domanda è del 50%. Ora, potresti anche sostenere che il paziente 1 ha avuto 4 controlli con 1 mole e non dall'altro e il paziente 3 ha avuto 0 controlli con 1 mole e non dall'altro, quindi la probabilità potrebbe essere 1/5 = 20%. Dipende da come definisci la tua domanda.


Grazie per la risposta. Puoi aiutarmi anche con quello? Lo apprezzerei molto. Alcuni miei colleghi, tuttavia, mi hanno detto di utilizzare la modellazione longitudinale per i dati o le statistiche bayesiane. Questi non si applicano qui immagino?
laza,

3
Questo post non risponde alla domanda, perché qualsiasi affermazione su una probabilità è intrinsecamente un modello. Il problema importante è "che modello è (o dovrebbe essere)?"
whuber

0

Personalmente, penso che tu possa iniziare studiando i modelli lineari generalizzati multivarianza : https://cran.r-project.org/web/packages/mcglm/index.html

https://cran.r-project.org/web/packages/mcglm/vignettes/GLMExamples.html

http://cursos.leg.ufpr.br/mcglm4aed/slides/2-mcglm.html#(1)

Questi modelli sono appropriati quando hai più di una variabile di risposta e non sono gaussiane, e questo è il tuo caso, poiché hai due variabili binarie (talpa o non talpa in ogni mano). Inoltre, il metodo consente di gestire le dipendenze intra-individuali, fornite dalla struttura longitudinale. Qui, longitudinale significa misure ripetute per lo stesso individuo, nel tempo.

Penso che i link sopra ti aiuteranno ad avere una buona idea di queste tecniche e forniscono anche l'implementazione computazionale in R.

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.