Quali sono i metodi statistici che posso usare per trovare combinazioni popolari o comuni di variabili categoriche?


10

Sto facendo uno studio sull'uso di polydrug. Ho un set di dati di 400 tossicodipendenti, che hanno dichiarato ciascuno i farmaci che abusano. Ci sono più di 10 farmaci e quindi grandi combinazioni possibili. Ho ricodificato la maggior parte delle droghe che consumano in variabili binarie (cioè l'eroina è 1 se un tossicodipendente ha abusato dell'eroina altrimenti 0). Vorrei trovare le combinazioni popolari o comuni di 2 o 3 farmaci. Esistono metodi statistici che posso usare?

Risposte:


6

Esistono solo 1024 possibili combinazioni di farmaci da utilizzare insieme (se c'erano solo 10 farmaci) supponendo che ciascun utente abbia utilizzato almeno 1 farmaco. Potresti semplicemente convertire le variabili 0/1 in stringa e concatenarle ed eseguire analisi di frequenza sulla stringa per vedere quali combinazioni appaiono più frequentemente. Prendendo un esempio di giocattolo, diciamo che nel tuo studio c'erano solo 3 farmaci, A, B e C. Se un partecipante utilizzava i farmaci A e C, la variabile alldrugspotrebbe essere codificata 101. Un partecipante che utilizza solo il farmaco B verrebbe codificato 010. Esegui le frequenze su questi per trovare quello selezionato più spesso. La maggior parte dei software dovrebbe essere in grado di elaborare questo in pochi secondi.


1
Concordato. Ci sono solo 400 tossicodipendenti quindi quei 1024 non possono verificarsi tutti.
Nick Cox,

Sì. Questo dovrebbe essere un gioco da ragazzi.
StatStudent

5

La modellistica di classe latente sarebbe un approccio di apprendimento supervisionato per trovare partizioni o raggruppamenti sottostanti "nascosti" di droghe e tossicodipendenti. LC è un metodo molto flessibile con due approcci generali: repliche basate su misure ripetute per un singolo soggetto vs repliche basate sulla classificazione incrociata di un insieme di variabili categoriali. I tuoi dati si adatterebbero al secondo tipo.

La flessibilità dei LC è una funzione della sua capacità di assorbire "miscele" di variabili con ridimensionamenti diversi (ad esempio, categorici o continui). Poiché l'approccio trova partizioni, segmenti o cluster nascosti nei dati, può anche essere considerata una tecnica di riduzione delle dimensioni.

Tutti i modelli LC hanno 2 fasi: nella fase 1 viene identificata una variabile dipendente o target e viene costruito un modello di regressione. Nella fase 2, viene analizzato il residuo (un singolo vettore "latente") dal modello della fase 1 e vengono create le partizioni catturando la variabilità (o eterogeneità) - le "classi latenti" - in quel vettore.

Il freeware è disponibile per il download e probabilmente funzionerebbe abbastanza bene per te. Uno di questi è un modulo R chiamato polCA disponibile qui:

http://www.jstatsoft.org/article/view/v042i10

Se hai circa $ 1.000 da spendere per un prodotto commerciale, Latent Gold è disponibile su www.statisticalinnovations.com Avendo usato Latent Gold per anni, sono un grande fan di quel prodotto per la sua potenza analitica e la sua gamma di soluzioni. Ad esempio, polCA è utile solo per i modelli LC con informazioni categoriche mentre LG funziona su tutta la linea ... inoltre, i loro sviluppatori aggiungono sempre nuovi moduli. L'aggiunta più recente crea modelli LC usando catene di Markov nascoste. Ma tieni presente che LG non è una piattaforma di dati "end-to-end", vale a dire, non è buona per la manipolazione o il sollevamento di dati pesanti.

Altrimenti, ci sono tonnellate di altri approcci per l'analisi delle informazioni categoriche ampiamente supportate da software statistico come R, SPSS, SAS, Python, ecc. Questi includono analisi della tabella di contingenza, modelli log-lineari, modelli di miscele finite, regressione del tensore bayesiano, e così via. La letteratura in quest'area è ampia e iniziata con Bishop, et al., Discrete Multivariate Analysis nel 1975, si estende attraverso i modelli RC di Leo Goodman basati sul suo lavoro svolto dagli anni '80, Analisi categorica dei dati di Agresti , libri di Stephen Fienberg e include Thomas Wickens 'eccellente libro Analisi delle tabelle di contingenza a più vie per le scienze sociali pubblicato nel 1989. Regressione del tensore bayesiano è il titolo di un articolo di David Dunson alla Duke ed è una specie di "stato dell'arte" per essere un metodo molto recente per la modellazione di tabelle di contingenza a più vie di massa.


amo l'elenco dei riferimenti!
Chris,

Utilizzando il nostro sito, riconosci di aver letto e compreso le nostre Informativa sui cookie e Informativa sulla privacy.
Licensed under cc by-sa 3.0 with attribution required.