Prevedere le condizioni mediche successive dalle condizioni passate nei dati sui sinistri


12

Attualmente sto lavorando con una vasta serie di dati sulle richieste di risarcimento che includono alcuni reclami di laboratorio e di farmacia. Le informazioni più coerenti nel set di dati, tuttavia, sono costituite da diagnosi (ICD-9CM) e codici di procedura (CPT, HCSPCS, ICD-9CM).

I miei obiettivi sono:

  1. Identificare le condizioni precursori più influenti (comorbidità) per una condizione medica come la malattia renale cronica;
  2. Identificare la probabilità (o probabilità) che un paziente sviluppi una condizione medica in base alle condizioni che ha avuto in passato;
  3. Fare lo stesso di 1 e 2, ma con procedure e / o diagnosi.
  4. Preferibilmente, i risultati sarebbero interpretabili da un medico

Ho esaminato cose come i documenti del Milestone del Premio sulla salute del patrimonio e ho imparato molto da loro, ma sono focalizzati sulla previsione dei ricoveri.

Quindi, ecco le mie domande: quali metodi pensi che funzionino bene per problemi come questo? E quali risorse sarebbero più utili per conoscere le applicazioni e i metodi di scienza dei dati relativi all'assistenza sanitaria e alla medicina clinica?

EDIT # 2 per aggiungere una tabella di testo in chiaro:

CKD è la condizione target, "malattia renale cronica", ".ogni" indica che hanno acquisito quella condizione in qualsiasi momento, ".isbefore.ckd" significa che avevano quella condizione prima della loro prima diagnosi di CKD. Le altre abbreviazioni corrispondono ad altre condizioni identificate dai raggruppamenti di codici ICD-9CM. Questo raggruppamento si verifica in SQL durante il processo di importazione. Ogni variabile, ad eccezione di patient_age, è binaria.


1
Potete fornire alcuni dati di esempio (in inglese semplice, senza codici)?
amico il

Ho aggiunto alcuni dati di esempio al mio post originale. In questa versione, ogni condizione è indicata da un codice di tre lettere.
Jamie,

1
R è bello, ma non molto leggibile dall'uomo. Potresti riformattare un campione dei tuoi dati come tabella (ad es. Usando il formato CSV o TSV; 5-6 colonne va bene)? Inoltre, alcune spiegazioni delle variabili (cosa significano "anx.any", "flu.isbefore.ckd", ecc. E cosa bisogna prevedere) aiuteranno molto.
amico il

1
Potete fornire ulteriori informazioni sui parametri utilizzati nel set di dati in modo che possiamo capire se ci sono correlazioni. Alcune delle abbreviazioni da te menzionate non mi sono chiare. Sarebbe bello se potessi condividere il tuo ID e-mail per noi per collaborare offline. Grazie!
JohnGalt

1
Questo è solo un po 'correlato, ma la nostra più recente sfida della scienza dei dati riguardava la previsione di affermazioni da altre affermazioni. cloudera.com/content/cloudera/en/training/certification/ccp-ds/… Quando la soluzione viene rilasciata, può contenere alcune idee interessanti.
Sean Owen,

Risposte:


7

Non ho mai lavorato con i dati medici, ma dal ragionamento generale direi che le relazioni tra variabili nell'assistenza sanitaria sono piuttosto complicate. Diversi modelli, come foreste casuali, regressione, ecc. Potrebbero catturare solo una parte delle relazioni e ignorarne altre. In tali circostanze ha senso utilizzare l'esplorazione e la modellizzazione statistiche generali .

Ad esempio, la prima cosa che vorrei fare è scoprire correlazioni tra possibili condizioni precursori e diagnosi. Ad esempio, in quale percentuale di casi la malattia renale cronica è stata preceduta da una lunga influenza? Se è alto, non significa sempre causalità , ma fornisce un ottimo spunto di riflessione e aiuta a comprendere meglio le relazioni tra le diverse condizioni.

Un altro passo importante è la visualizzazione dei dati. La CKD si verifica nei maschi più spesso che nelle femmine? E il loro luogo di residenza? Qual è la distribuzione dei casi di CKD per età? È difficile comprendere un set di dati di grandi dimensioni come un insieme di numeri, la loro rappresentazione rende molto più semplice.

Quando hai un'idea di cosa sta succedendo, esegui un test di ipotesi per verificare la tua ipotesi. Se rifiuti l'ipotesi nulla (presupposto di base) a favore di una alternativa, congratulazioni, hai reso "qualcosa di reale".

Infine, quando hai una buona conoscenza dei tuoi dati, prova a creare un modello completo . Può essere qualcosa di generale come PGM (ad esempio una rete bayesiana realizzata manualmente) o qualcosa di più specifico come la regressione lineare o SVM , o qualsiasi altra cosa. Ma in ogni modo saprai già come questo modello corrisponde ai tuoi dati e come puoi misurarne l'efficienza.


Come buona risorsa di partenza per l'apprendimento dell'approccio statistico, consiglierei il corso Intro to Statistics di Sebastian Thrun. Sebbene sia piuttosto semplice e non includa argomenti avanzati, descrive i concetti più importanti e offre una comprensione sistematica della teoria e delle statistiche della probabilità.


Grazie per questo! Conferma alcuni dei passi che ho già intrapreso (analisi esplorativa, verifica delle ipotesi, ecc.).
Jamie,

7

Pur non essendo uno scienziato di dati, sono un epidemiologo che lavora in ambito clinico. La tua domanda di ricerca non ha specificato un periodo di tempo (cioè le probabilità di sviluppare la CKD in 1 anno, 10 anni, vita?).

In generale, passerei attraverso una serie di passaggi prima ancora di pensare alla modellazione (analisi univariata, analisi bivariata, controlli di colinearità, ecc.). Tuttavia, il metodo più comunemente usato per tentare di prevedere un evento binario (usando variabili binarie OR continue) è la regressione logistica. Se si volesse considerare la CKD come un valore di laboratorio (albumina nelle urine, eGFR) si utilizzerà la regressione lineare (esito continuo).

Mentre i metodi utilizzati dovrebbero essere informati dai tuoi dati e domande, i medici sono abituati a vedere i rapporti di probabilità e i rapporti di rischio in quanto queste sono le misure di associazione più comunemente riportate nelle riviste mediche come NEJM e JAMA.

Se stai lavorando a questo problema dal punto di vista della salute umana (al contrario della Business Intelligence), questo modello di previsione clinica di Steyerberg è una risorsa eccellente.


1
Grazie per i suggerimenti utili. Darò sicuramente un'occhiata a quel libro! Anche se ho accesso ai valori di laboratorio, i dati sono inaffidabili e sporadici, quindi sto cercando di attenermi ai dati che posso ottenere dai reclami. Le abbreviazioni variabili sono in realtà raggruppamenti di codici diagnostici del software di classificazione clinica AHRQ.
Jamie,

3

"Identificare le condizioni precursori più influenti (comorbidità) per una condizione medica come la malattia renale cronica"

Non sono sicuro che sia possibile identificare le condizioni più influenti; Penso che dipenderà dal modello che stai usando. Proprio ieri ho adattato una foresta casuale e un albero di regressione potenziato agli stessi dati, e l'ordine e l'importanza relativa che ciascun modello ha dato per le variabili erano abbastanza diversi.


Grazie Andy. Potresti elaborare un po '? È perché le variabili non catturano abbastanza dettagli?
Jamie,

Non ne ho idea. Immagino che dipenda da come funzionano i diversi modelli.
JenSCDC,

Potresti suggerire alcune delle soluzioni che hai provato o considerato?
Jamie,

Finora non l'ho fatto neanche io, quindi nessun aiuto lì. Scusa.
JenSCDC,

Ora sono in vacanza per le prossime settimane, ma quando torno ci penserò perché ha davvero suscitato il mio interesse.
JenSCDC,
Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.